資料清洗經驗分享:什麼是資料清洗，如何做好？

首頁>Club>2021-07-13 00:54

資料清洗經驗分享:什麼是資料清洗，如何做好？

回覆列表

1 # 52sissi

　　在這個由物聯網(IoT)，社交媒體，邊緣計算以及越來越多的計算能力(如量子計算)支援的數字時代，資料可能是任何企業最有價值的資產之一。正確(或不正確)的資料管理將對企業的成功產生巨大影響。換句話說，它可以成敗一個企業。

　　這就是原因，為了利用這些巨大的資料，無論大小，企業都在使用機器學習和深度學習等技術，以便他們可以建立有用的客戶群，增加銷售量並提高品牌忠誠度。
　　但是在大多數情況下，由於具有許多收集源和各種格式(結構化和非結構化)，資料可能是不準確，不一致和冗餘的。

　　透過向機器學習演算法提供具有此類異常的資料，我們是否可以及時，全面地訪問相關資訊?

　　不，當然不!首先需要清除此類資料。

　　這就是資料清理的地方!

　　資料清理是建立有效的機器學習模型的第一步，也是最重要的一步。至關重要!

　　簡而言之，如果尚未清理和預處理資料，則機器學習模型將無法正常工作。

　　儘管我們經常認為資料科學家將大部分時間都花在修補ML演算法和模型上，但實際情況有所不同。大多數資料科學家花費大約80%的時間來清理資料。
　　為什麼?由於ML中的一個簡單事實，

　　換句話說，如果您具有正確清理的資料集，則簡單的演算法甚至可以從資料中獲得令人印象深刻的見解。

　　我們將在本文中涉及與資料清理相關的一些重要問題：

　　a.什麼是資料清理?

　　b.為什麼需要它?

　　c.資料清理有哪些常見步驟?

　　d.與資料清理相關的挑戰是什麼?

　　e.哪些公司提供資料清理服務?

　　讓我們一起開始旅程，瞭解資料清理!

　　資料清洗到底是什麼?

　　透過有效的資料清理，所有資料集都應該沒有任何在分析期間可能出現問題的錯誤。

　　為什麼需要資料清理?
　　通常認為資料清理是無聊的部分。但這是一個有價值的過程，可以幫助企業節省時間並提高效率。

　　這有點像準備長假。我們可能不喜歡準備部分，但我們可以提前收緊細節，以免遭受這一噩夢的困擾。

　　我們只需要這樣做，否則我們就無法開始玩樂。就這麼簡單!

　　讓我們來看一些由於“髒”資料而可能在各個領域出現的問題的示例：

　　a.假設廣告系列使用的是低質量的資料並以不相關的報價吸引使用者，則該公司不僅會降低客戶滿意度，而且會錯失大量銷售機會。

　　b.如果銷售代表由於沒有準確的資料而未能聯絡潛在客戶，則可以瞭解對銷售的影響。

　　c.任何規模大小的線上企業都可能因不符合其客戶的資料隱私規定而受到政府的嚴厲處罰。例如，Facebook因劍橋資料分析違規向聯邦貿易委員會支付了50億美元的罰款。
　　d.向生產機器提供低質量的操作資料可能會給製造公司帶來重大問題。

　　資料清理涉及哪些常見步驟?

　　每個人都進行資料清理，但沒人真正談論它。當然，這不是機器學習的“最奇妙”部分，是的，沒有任何隱藏的技巧和秘密可以發現。

　　儘管不同型別的資料將需要不同型別的清除，但是我們在此處列出的常見步驟始終可以作為一個良好的起點。

　　因此，讓我們清理資料中的混亂!

　　a.在資料收集過程中，最常見的是重複或多餘的觀察結果。例如，當我們組合多個地方的資料集或從客戶端接收資料時，就會發生這種情況。隨著資料的重複，這種觀察會在很大程度上改變效率，並且可能會增加正確或不正確的一面，從而產生不忠實的結果。
　　修復結構錯誤

　　資料清理的下一步是修復資料集中的結構錯誤。

　　結構錯誤是指在測量，資料傳輸或其他類似情況下出現的那些錯誤。這些錯誤通常包括：

　　a.功能名稱中的印刷錯誤(typos)，

　　b.具有不同名稱的相同屬性，

　　c.貼錯標籤的類，即應該完全相同的單獨的類，

　　d.大小寫不一致。

　　例如，模型應將錯字和大小寫不一致(例如“印度”和“印度”)視為同一個類別，而不是兩個不同的類別。與標籤錯誤的類有關的一個示例是“不適用”和“不適用”。如果它們顯示為兩個單獨的類，則應將它們組合在一起。

　　這些結構錯誤使我們的模型效率低下，並給出質量較差的結果。
　　過濾不需要的離群值

　　資料清理的下一步是從資料集中過濾掉不需要的離群值。資料集包含離訓練資料其餘部分相距甚遠的異常值。這樣的異常值會給某些型別的ML模型帶來更多問題。例如，線性迴歸ML模型的穩定性不如Random Forest ML模型強。

　　我們還可以使用離群值檢測估計器，這些估計器總是嘗試擬合訓練資料最集中的區域，而忽略異常觀察值。

　　處理丟失的資料

　　機器學習中看似棘手的問題之一是“缺少資料”。為了清楚起見，您不能簡單地忽略資料集中的缺失值。出於非常實際的原因，您必須以某種方式處理丟失的資料，因為大多數應用的ML演算法都不接受帶有丟失值的資料集。

　　讓我們看一下兩種最常用的處理丟失資料的方法。
　　這是次優方式，因為當我們丟棄觀察值時，也會丟棄資訊。原因是，缺失的值可能會提供參考，在現實世界中，即使某些功能缺失，我們也經常需要對新資料進行預測。

　　b.根據過去或其他觀察結果估算缺失值：

　　這也是次優的方法，因為無論我們的估算方法多麼複雜，原始值都會丟失，這總是會導致資訊丟失。大資料分析機器學習AI入門指南https://www.aaa-cg.com.cn/data/2273.html由於缺少值可能會提供資訊，因此應該告訴我們的演算法是否缺少值。而且，如果我們推算我們的價值觀，我們只是在加強其他功能已經提供的模式。

　　簡而言之，關鍵是告訴我們的演算法最初是否缺少值。

　　那麼我們該怎麼做呢?
　　a.要處理分類特徵的缺失資料，只需將其標記為“缺失”即可。透過這樣做，我們實質上是添加了新的功能類別。

　　b.要處理丟失的數字資料，請標記並填充值。透過這樣做，我們實質上允許演算法估計缺失的最佳常數，而不僅僅是用均值填充。

　　與資料清理相關的主要挑戰是什麼?

　　儘管資料清理對於任何組織的持續成功都是必不可少的，但它也面臨著自己的挑戰。一些主要挑戰包括：

　　a.對引起異常的原因瞭解有限。

　　c.為了幫助提前完成該過程，構建資料清理圖非常困難。

　　d.對於任何正在進行的維護，資料清理過程既昂貴又費時。

https://www.toutiao.com/i6821025363057967624/

劇多

資料清洗經驗分享:什麼是資料清洗，如何做好？

相關內容