回覆列表
  • 1 # lzw6407

    資料質量是保證資料應用的基礎,它的評估標準主要包括四個方面,完整性、一致性、準確性、及時性。評估資料是否達到預期設定的質量要求,就可以透過這四個方面來進行判斷。

    完整性

    完整性指的是資料資訊是否存在缺失的狀況,資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個欄位資訊的記錄缺失。不完整的資料所能借鑑的價值就會大大降低,也是資料質量更為基礎的一項評估標準。

    資料質量的完整性比較容易去評估,一般我們可以透過資料統計中的記錄值和值進行評估。例如,網站日誌日訪問量就是一個記錄值,平時的日訪問量在 1000 左右,突然某一天降到100了,需要檢查一下資料是否存在缺失了。再例如,網站統計地域分佈情況的每一個地區名就是一個值,中國包括了32個省和直轄 市,如果統計得到的值小於32,則可以判斷資料有可能存在缺失。

    一致性

    一致性是指資料是否遵循了統一的規範,資料集合是否保持了統一的格式。

    資料質量的一致性主要體現在資料記錄的規範和資料是否符合邏輯。規範指的是,一項資料存在它特定的格式,例如手機號碼一定是13位的數字,IP地址一定 是由 4個0到255間的數字加上”.”組成的。邏輯指的是,多項資料間存在著固定的邏輯關係,例如PV一定是大於等於UV的,跳出率一定是在0到1之間的。

    一般的資料都有著標準的編碼規則,對於資料記錄的一致性檢驗是較為簡單的,只要符合標準編碼規則即可,例如地區類的標準編碼格式為“北京”而不是“北京市”,我們只需將相應的值對映到標準的值上就可以了。

    準確性

    準確性是指資料記錄的資訊是否存在異常或錯誤。和一致性不一樣,存在準確性問題的資料不僅僅只是規則上的不一致。更為常見的資料準確性錯誤就如亂碼。其次,異常的大或者小的資料也是不符合條件的資料。

    資料質量的準確性可能存在於個別記錄,也可能存在於整個資料集,例如數量級記錄錯誤。這類錯誤則可以使用較大值和最小值的統計量去稽核。

    一般資料都符合正態分佈的規律,如果一些佔比少的資料存在問題,則可以透過比較其他數量少的資料比例,來做出判斷。

    當然如果統計的資料異常並不顯著,但依然存在著錯誤,這類值的檢查是更為困難的,需要透過複雜的統計分析對比找到蛛絲馬跡,這裡可以藉助一些資料分析工具,那麼具體的資料修正方法就不在這裡介紹了。

    及時性

    及時性是指資料從產生到可以檢視的時間間隔,也叫資料的延時時長。及時性對於資料分析本身要求並不高,但如果資料分析週期加上資料建立的時間過長,就可能導致分析得出的結論失去了借鑑意義。

  • 中秋節和大豐收的關聯?
  • 現代社會是講金錢至上還是講情感至真?你覺得怎麼去看待現社會?