有人認為,大資料分析的核心思想之一是“是相關不是因果”。我則一直強調:這個觀點不適合工業大資料分析。僅看相關性,往往會進入誤區。下面談幾種現象和原因。
資料分析結果呈現明顯相關性的,工業人往往很早就知道;偶爾有一些“發現”是工業人不知道的:卻往往是無用的。
導致這種現象的本質原因是:優秀的技術人員對生產過程和物件理解很深。所以,你發現的真正的“相關性”他往往是知道的。反之,他不知道的相關性,往往是沒有因果關係的相關。比如,“統計資料表明:穿大鞋子的人智商高”——導致這種相關的原因是:有人統計了0到18歲的未成年人。在這些人中,年齡大的智商高、穿的鞋子也大。
現實中重要的因素,資料上可能沒有相關性。
導致這種現象的原因很多。
第一個原因是範圍限制。比如,如果人們知道某個工藝引數(X)對產品效能(Y)影響很大,就會試圖控制X、讓它基本保持穩定、讓X的變化範圍非常小。這時,工藝引數和產品效能的相關性就會非常小。
第二原因是X就設定在最優點附近。這意味著X變大或者變小都會讓效能Y變差。於是,兩者的相關係數接近於0.
第三個原因就是系統性干擾。工業物件往往是個系統。當一個引數X1的變化影響效能Y時,人們就可能會找一個變數X2來抵消這種波動。這時,X1、X2都對Y產生影響,但相關係數都接近於0。例如,閥門作為保證流量穩定的控制手段時,管道堵塞會引起閥門開度增大。在管道堵塞不斷加重的過程中,閥門開度持續變大、但流量基本不變。故而從資料上看,閥門與流量幾乎不存在相關性。
分析結果符合預期,也未必能給出正確的指導。
假如兩個變數X、Y存在顯著的相關性,也確實存線上性關係。比如,通過迴歸,得到兩者的關係是Y=K*X。但如果人們真的把X增加1,Y一般不會增加K。特別是:當資料來自於某個工作點附近的時候。這時,自變數的檢測誤差往往不可忽視,從而導致“有偏估計”,應用時誤差大。
懂得資料分析的人,首先要知道資料會騙人。如果這些常見的問題都不知道,會白白浪費大量的時間、還會影響自己的信譽。
資料分析的目的是為了獲得新知識。如果知識不是新的,就沒有價值。但新知識是相對“已有知識”而言的。由於工程師對生產過程和物件的理解,往往超出銷售人員對市場的理解:工程師對生產的假設往往是確定性的,而銷售人員對市場的假設往往是不確定性的。故而,工業大資料分析不同於商務大資料分析。
宣告:資料由本媒體號從網路收集整理而成,所有資料版權歸原公司、機構所有。資料僅供學習參考,切勿用於商業用途,如涉及版權問題,請第一時間告知我們刪除,非常感謝!