工業大資料分析為什麼不能只看相關性

首頁>科技>製造雲服務2019-10-07 10:29

工業大資料分析為什麼不能只看相關性

有人認為，大資料分析的核心思想之一是“是相關不是因果”。我則一直強調：這個觀點不適合工業大資料分析。僅看相關性，往往會進入誤區。下面談幾種現象和原因。

資料分析結果呈現明顯相關性的，工業人往往很早就知道；偶爾有一些“發現”是工業人不知道的：卻往往是無用的。

導致這種現象的本質原因是：優秀的技術人員對生產過程和物件理解很深。所以，你發現的真正的“相關性”他往往是知道的。反之，他不知道的相關性，往往是沒有因果關係的相關。比如，“統計資料表明：穿大鞋子的人智商高”——導致這種相關的原因是：有人統計了0到18歲的未成年人。在這些人中，年齡大的智商高、穿的鞋子也大。

現實中重要的因素，資料上可能沒有相關性。

導致這種現象的原因很多。

第一個原因是範圍限制。比如，如果人們知道某個工藝引數（X）對產品效能（Y）影響很大，就會試圖控制X、讓它基本保持穩定、讓X的變化範圍非常小。這時，工藝引數和產品效能的相關性就會非常小。

第二原因是X就設定在最優點附近。這意味著X變大或者變小都會讓效能Y變差。於是，兩者的相關係數接近於0.

第三個原因就是系統性干擾。工業物件往往是個系統。當一個引數X1的變化影響效能Y時，人們就可能會找一個變數X2來抵消這種波動。這時，X1、X2都對Y產生影響，但相關係數都接近於0。例如，閥門作為保證流量穩定的控制手段時，管道堵塞會引起閥門開度增大。在管道堵塞不斷加重的過程中，閥門開度持續變大、但流量基本不變。故而從資料上看，閥門與流量幾乎不存在相關性。

分析結果符合預期，也未必能給出正確的指導。

假如兩個變數X、Y存在顯著的相關性，也確實存線上性關係。比如，通過迴歸，得到兩者的關係是Y=K*X。但如果人們真的把X增加1，Y一般不會增加K。特別是：當資料來自於某個工作點附近的時候。這時，自變數的檢測誤差往往不可忽視，從而導致“有偏估計”，應用時誤差大。

懂得資料分析的人，首先要知道資料會騙人。如果這些常見的問題都不知道，會白白浪費大量的時間、還會影響自己的信譽。

資料分析的目的是為了獲得新知識。如果知識不是新的，就沒有價值。但新知識是相對“已有知識”而言的。由於工程師對生產過程和物件的理解，往往超出銷售人員對市場的理解：工程師對生產的假設往往是確定性的，而銷售人員對市場的假設往往是不確定性的。故而，工業大資料分析不同於商務大資料分析。

宣告：資料由本媒體號從網路收集整理而成，所有資料版權歸原公司、機構所有。資料僅供學習參考，切勿用於商業用途，如涉及版權問題，請第一時間告知我們刪除，非常感謝！

大資料

工程師

最新評論

劇多

工業大資料分析為什麼不能只看相關性

大資料

工程師

相關內容