從事資料工作的小夥伴,不管資料量大小與否,都遇到過如下問題:資料不好,資料不一致,資料不乾淨,諸如此類。根據《福布斯》的報告,資料專家60%的時間都花費在清理和整理非結構化資料上。以下這些經驗與你共享。
缺少唯一識別符號?要聯接兩個或多個表,通常要有一個可用於聯接表的共有的列,變數,引數等。在這裡,我面臨著缺少唯一識別符號的問題,或者我們可以說缺少主鍵和外來鍵。那麼問題來了,尤其是在跨表報告引數時。
為了解決該問題,我們可以透過連線某些列中的值來建立鍵,從而構建了一個包含相關列在內的表。
不同的命名法?在使用非結構化地理資料時,我遇到了同一個地理轄區不同拼寫的問題。例如,Chhattisgarh(印度的一個邦)被拼寫為Chattisgarh,Chhatisgarh和Chhattisgarh。這又帶來了麻煩。
為了解決該問題,我們建立一個臨時的對映層,將程式碼分配給字串值,從而透過主資料上的程式碼從主表中獲取正確的拼寫以進行操作。
儘管在我看來,構建系統會限制使用者選擇拼寫地理名稱的方式,而不是向他們提供預先填充的下拉列表,那樣問題就徹底解決了。
整理來自不同檔案格式的資料這恐怕是資料治理中一半以上工作時間會遇到的問題了。我不得不處理不同格式的表的資料。例如,一個是SQL檔案,另一個是xlsx檔案。
這裡沒有什麼可做的,但是可以確定的是,不要錯過整體的所有部分,即整理細分資料。
我們無法控制一切,有時需要尋找替代方案。
語言障礙?這是一個有趣的例子,印度次大陸的語言和方言多樣性直接影響資料的一致性。例如,喀拉拉邦的錫魯萬納塔普拉姆(Thiruvananthapuram)也被稱為Tiruvanantapuram,每當遇到這,會使我的日子比平時更加焦慮。在處理城區和市區的城鎮級別以及鄉村的鄉村級別的地理管轄資料時,尤其是在調和資料方面提出了很大的挑戰。
解決問題的方式不只一種,模糊邏輯拼寫檢查器是我們尋找的一塊墊腳石,我們試圖維持一個評分系統,以協調所提出的正確拼寫的資料,它解決了近60%的問題。剩下的40%交給人工解決。
最常見的-資料缺失各種型別和大小的資料上都可能有資料缺失的問題。
我們正在使用鍵值對(key-value pair)系統來擺脫之前定義的問題,例如不同的命名法和/或語言障礙等。只有當我們發現至少35%的值缺失時,我才不得不提出使用模式識別演算法來估算缺失值,同時保持機制的神聖性,即保持其唯一性。
並不完美的資料架構如果資料採集,流程和使用方式不規範,則會導致獲取相關有用資料的延遲。此處舉出由於同一問題而引發的兩個例項。
首先,想象一下要從“y”列中獲取要在“x”列中收集的資料點。現在,進行架構更改是一項艱鉅的任務,因此,我們製作了最佳化的資料模型,每次輸入新一批資料時,這些資料模型都會自動進行更新。
其次,在交付懸而未決的情況下,一個欄位尚未收到任何資料。這意味著要在截止日期前解決,因此我們設法進行數學運算,並使用微分邏輯獲取缺失列的值。即使,我們後來收到了我們得出的列的值。
不同的日期格式在這裡引用第3點,由於資料來自不同的檔案格式,因此一個變數的列格式也不同也就不足為奇了。
整理資料時,除了進行一些對映和/或轉換操作外,我們無能為力。但是,在使用視覺化工具時,該問題似乎並不嚴重,僅需單擊幾下即可使其變得相關和相容。
總的來說,清理和整理非結構化資料對於交付高質量的結果是至關重要的。希望這些例項能為現實世界中的實際問題提供參考。