-
1 # 加米穀大資料
-
2 # 曹一海
大資料前幾年是非常火熱的話題,各大新聞媒體都在鋪天蓋地的宣傳,科技人士不談大資料就不像是科技圈的,不應用大資料彷彿就不是科技公司,直到人工智慧和區塊鏈的上臺才稍稍蓋過大資料的風頭!但經過這麼多年的宣傳,大資料在大多數人心中定義成了非常可靠,作用非常大,甚至有神奇作用的科技手段!對於大資料人們或許有點過於迷戀了,誇大了它的用途,一旦運用不當,可能會造成重大的損失!
人們對於大資料的迷戀可以理解,畢竟現實生活中,分歧很多,各有各的觀點,最具說服力的往往是資料!冷冰冰的資料往往不帶主觀性,不偏不倚確實比主觀觀點什麼更值得信任,這反而說明社會進步了!但是大資料一旦被誇大或者運用不當,人們錯誤的觀點往往會加深,進一步固化!
例如多年以前,某購物網站發表了一篇關於女性胸圍的大資料,透過銷售的資料得出了一個結論黑龍江姑娘的胸圍最小!這與大家普遍的認知產生了很大的衝突,因為大家普遍認為東北姑娘身材高挑豐滿。這個資料一出來,部分堅信自己省份女性更好(但多數人不認同)的人,認為這份資料是有力的證明!
大資料與銷售資料這份資料是不是符合現實,沒調查我不知道,去過的省份也少,但這份資料真的能說明問題嗎?有沒有另外一種完全相反的可能性——黑龍江的姑娘胸圍不是最小,而是普遍很豐滿,當地的商店擔心小文胸不好賣而不進貨,部分女性只好上購物網站購買!
再舉一個例子,購物網站資料證明,40歲以上的高消費男性更愛擁有事業線的女性,價格在百元左右,而“屌絲男”則對“事業線”沒太多需求,僅對豹紋款的內衣表現出偏愛,其消費區間在30-50元之間。這種資料證明沒有什麼說服力,從人性的角度來講,難道40以下的男性不偏愛擁有事業線的女性?“屌絲男”需求也得建立在女友的基礎上(總不至於買個文胸自己用吧?),很可能是因為擁有事業線的女性更偏愛選擇高消費男性!
誠然大資料在資料記錄方面,資料異常對比有著無比巨大的優勢,例如打擊刷單等行為!但把大資料等同於科學,迷信它得出的結論是一種很嚴重的錯誤,它沒有人們想象中的那麼靠譜!
很多商業公司都追求數字化轉型,紛紛想把大資料引用到自己的商業活動中, 但國外研究機構Gartner透過調查發現60%的大資料專案是失敗。而Gartner分析師尼克·海德克(Nick Heudecker)表示,實際數字現在已接近85%,因為人們還是“過於保守”!
關於大資料失敗的例子最典型的就是google的流感預測了,而我相信若不是剛開始2008年預測的“成功”,google根本不會大肆宣傳自己的大資料,後來幾年的預測表現實在是打臉!畢竟沒有哪家公司願意主動告訴人們他們失敗的專案,他們更願意用成功的,富有故事性的成功案例來宣傳自己,即使告訴了媒體也覺得沒什麼報道價值,他們更熱衷於報道新事物的神奇!
自媒體運營的人對各大平臺的推薦效果感觸應該很深!雖然各大自媒體平臺都宣稱採用大資料智慧化推薦,但是實際上效果差距甚遠,一模一樣的文章基本同時在不同平臺發表(不去運作的情況下),你會發現差距很大,有的沒什麼推薦沒什麼閱讀,有的不溫不火,有的平臺迅速熱起來了,收藏轉發評論的很多,閱讀量很快就起來了,也許下一篇文章,你發現跟原來的又不一樣了,完全偏向隨機性的,離智慧還是比較遠!
為什麼說大資料不是科學?
目前大資料的應用還是在眾多的資料中分析得出結論,這很像科學剛開始的樣子,但卻缺少科學最重要的驗證過程!大樣本隨機雙盲分組對照實驗已經科學驗證標準正規化了!在單一條件不同的情況下,需要人工設定其餘條件完全一模一樣,從而透過對比來觀察單一因素對實驗結果的影響!可是一到社會活動中,各種變數就複雜多了,大資料往往來自於各種各樣複雜的社會條件下的產物,而社會又在不斷地變動中,如何做到其他條件不變?結果是什麼條件導致的,是單一的條件還是很多原因共同導致的?
例如大資料最有名的例子就是啤酒和尿布的故事,沃爾瑪透過銷售資料發現在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中,隨後調整商品分佈將尿布和啤酒放置在同一片區域,從而提高了銷售收入!沃爾瑪給出的原因是嬰兒的母親一般在家帶孩子,孩子父親負責購物,所以幫孩子購買尿布的同時也會順便給自己買啤酒!
你不覺得奇怪嗎?如果這種發現真的有用,那麼其他商店就會學習跟進,然而現在我們能看到幾家超市是將尿布和啤酒放在一起的,就連沃爾瑪自己現在也不這麼幹!難道現在是帶嬰兒的都是男性了?沃爾瑪給出的原因根本沒有什麼變化!什麼條件導致這樣的現象無從驗證,也許是當時啤酒正在促銷,也許統計資料的時候剛好遇上了啤酒銷售旺季,或許當地剛好有什麼狂歡節日,導致啤酒需求量上升,又或者那段時間天氣實在是太熱了,說不定當時剛好趕上什麼重要的賽事,比如說世界盃等等,現實生活中就是有這麼多因素,不管其中的一種或者幾種很多種都可能導致啤酒需求量上升!天氣,賽事這種偶然性的因素很難重現,又或者這幾種條件很那重現共同出現,你如何去控制所有條件,改變單一因素?
大資料作用很大,能給我們帶來很多好處,但它不是萬能的,也存在很多侷限性,一旦迷信大資料不做認真的分析和判斷,往往可能把這種偶然的現象當成規律來處理,這個時候你會投入大量的資源來配置,教訓也就隨之而來了!
-
3 # 河南新華
是的,現在是網際網路時
大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。是不是感覺聽不懂?聽不懂沒關係,你只要知道大資料是很牛逼的一個東西就行,不然為啥這麼多公司都用大資料包裝自己。
回覆列表
大資料說的那麼懸,其實主要是做三件事:
對使用者的理解、對資訊的理解、對關係的理解。
如果我們在這三件事之間還要提一件事的話,一個叫趨勢; 還有政府部門做的輿情監控,可以監控大規模的資料,可以分析出人的動向。
主要行業應用
1. 醫療行業
2. 能源行業
3. 通訊行業
4. 零售業