首頁>科技>

大資料時代的到來和蓬勃發展,讓越來越多的人們開始覬覦或對大資料分析和大資料探勘的愛好興趣越來越濃厚,開始蠢蠢欲動想進去大資料分析與應用行列。這很正常,畢竟大資料時代下的資料分析師或資料探勘師的崗位需求是不斷被增加或持續增長的。但大資料的火熱也終究會帶來僧多粥少的局面。也許當初你一股腦鑽進大資料分析培訓的學習行列,想在資料分析培訓認證的幫助讓自己的資料分析師能力得到認可和提升,但是我們必須首先要搞明白的是我們是否真的了解大資料,自己是否真的對大資料非常感興趣。

很多人口口聲聲說自己的資料分析能力不錯,或者說自己可以算得上是一名資料分析師了,但被人問起何為大資料時,可能還是一頭霧水。所以啊,在我們決定進行資料分析培訓或資料探勘培訓之前,在我們決心進入大資料分析或大資料探勘行列前,我們要真正搞懂什麼是真正的大資料。下面小編就和大家分享一篇文章,用白話大資料告訴你什麼才是真正的大資料。

一、大資料的四大誤區

誤區一 大資料就是資料大

“光大是不夠的!”當我擲地有聲用這句話開場時,正好一個妹子推門而入,聽到這句話,微微一怔,低頭坐下。

現在在很多場合,一提起大資料,基本都會說“日處理資料量XXGB,上傳圖片XXGB,併發數XXX”“Hadoop叢集擁有XXXX節點,總儲存XXPB”……諸如此類的技術語言。但是不是資料大了,就可以達到大資料的境界,可以一起達到人生的大和諧了?

資料再大,不去使用,呆在機房裡偏安一隅,那絕不是大資料,而是敗家子。在這個問題上,傳統的入口網站基本上就屬於坐擁金山卻無錢上青樓。無論搜狐新浪網易,每天的使用者數以億計,但是除了簡單的廣告呈現,並沒有通過對資料的分析產生更多的價值。之所以沒有提企鵝,是因為他們手裡有最龐大的QQ使用者,沒推廣但不代表沒有做,例如當年推出QQ圈子的那種驚豔感,現在想起來還觸目驚心。

而對於中小網站來說,不用盲目追求先進技術牛逼架構。首先需考慮的是商業運作和推廣,只有使用者量飆升見紅的情況下,再去考慮技術升級。給君一個雙選題,A.日登陸使用者1000人,架構完全參照美國亞馬遜從不宕機,B.日登陸使用者10萬人,每天因為高併發不得不宕機三次。你會選什麼?

你不覺得“我那個網站因為使用者太多太熱情又宕機了”這句話又驕傲又裝逼麼?

誤區二 懂大資料就必須要懂技術

“我不懂技術,我能學會大資料嗎?”

大資料更多的是一種能力,而非技能,這種能力能從無盡的資料裡看出商機看出價值。諸葛亮懂兵法,他知道該在哪裡伏兵該在哪裡生火,他不必知道關羽是如何耍大刀,也不必知道張飛殺人時,蛇矛是扎還是砍。

誤區三 所有公司都必須懂大資料

我承認如果賣煎餅果子的大媽能開發一個APP,拿到客戶對煎餅裡薄脆是否爽口,辣椒醬是否夠味的直接意見,那麼很有利於產品的改進。但是你會為一個3元錢的煎餅去下載一個8M的APP嗎?

而在移動網際網路大會上,Evernote的CEO Phil Libin明確說自己產品的商業模式就是向用戶收費,讓他們甘心為產品體驗付費,而不玩當下流行的大資料那一套。

知道自己能玩什麼很常見,而知道自己不能玩不必玩什麼更可貴。

誤區四 資料越多越好

從陳冠希到李宗瑞,無不透露出濃濃的收藏癖。那些被大家藏在硬碟深處的姑娘們,真的有重見天日的一天嗎?無論東京熱還是加勒比,由來只有新人亞買碟,有誰聽得舊人COME ON?

而搜一搜“存款 貶值”的關鍵詞,從“五十年前的百萬變13塊”,到“一萬元存一年賠19元”都可以看出,錢必須要用才有價值,資料也是一樣。

只有不停的使用資料,挖掘資料背後的關係和價值,才能如滾雪球一般,使資料之間的相互關係更豐富更完善。

二、大資料的核心思想

1.有什麼不重要,怎麼用才重要

在會上,無奈的發現每當舉男女之間的例子,眾人理解能力就飆升,而講偏產品技術方面時,下面就一臉木然昏昏欲睡。(諸位!!!你們是來聽色情講座呢?)

Netflix公司利用大資料來拍《紙牌屋》的勵志故事大家都聽過無數遍。Netflix是美國最大的DVD與網路視訊租賃網站,他們在國內有2700萬用戶,全球有3300萬。他們從流媒體視訊使用者處收集到的資料是異常驚人的,每一次搜尋,每一次暫停,每一次積極或者消極的評價,還有自己的位置資料裝置資料社交媒體資料,在分析完這些資料之後,發現自己的這些觀眾都喜歡演員凱文-史派西,還喜歡導演大衛-芬奇,並且喜歡1990年的英國同名電視劇。三項綜合在一起,Netflix就下定決心拍攝《紙牌屋》,並將資料分析運用得淋漓盡致。在Netflix的觀影頁面上,提供暫停後截圖的功能,他們就依靠這種資料來判斷觀眾更喜歡哪種佈景和畫面。

當然,這三個因素其實都有不穩定性,例如凱文-史派西也曾拍過只被評了4.2分的《弗雷德聖誕老人》,大衛-芬奇首次執導的《異形3》也成系列中口碑最差的一部。但是從概率上來說,這三個成功因素都包括的劇集更靠譜。

另外國政通推出的“同名同姓”應用,雖然看起來比較偏娛樂化實用性不強,但是這背後的那些身份資料是可以進行各種二次利用。每次看到類似應用,我總會把前同事“操瑞士”的奇葩名字輸進去,現在只有這款應用準確的找到了全國只有1個操瑞士,並且是安徽人。呼叫瑞士大使館迅速鎖定他的位置吧!

所以大資料的核心並不是擁有資料,而是拿資料去做了什麼。也就是說你不能僅僅佔有人家的身子,也要佔據人家的心靈。

一個500M的使用者資料excel表算不算大資料?曾經在做某款產品的使用者篩選時,這麼一個excel成功拖死我電腦三次,我當時憤怒的說:“KAO,這SB大資料!”現在想起來,我冤枉了大資料君,您受苦了。

真正的大資料,應該是從不同維度,不同途徑過來的各種格式資料碎片,並不限於文字/視訊/聲音/位置/圖片等。只有將不同維度的資料放在一起判斷,得出來的趨勢才有可能更真實。雷同的資料積累的再多,超過某一個限度之後,我們再從新樣本上獲得的有用資訊就越來越少,就如同經濟學上的邊際效應遞減一樣。而用簡單點兒的話解釋就是如果你已經交往過五個IT碼農,那麼第六個其實也不會新鮮到哪裡去,倒不如重新調整方向,換個高富帥找點兒不同的刺激。

多樣化的來源同樣可以避免陷在一個死衚衕裡出不來。例如以前經常說的“三年自然災害”,如果僅僅去查詢這三年的天氣狀況和死亡人數的關係。那麼可能最後得出結論是“晴朗天氣比陰天更容易致人死亡”。但實際上如果去結合《人民日報》畝產十萬斤的相關翔實公正報道再加上那些年中國糧食對外進出口情況,那麼就會得出更有建設性的結論。在一90後妹子的追問下,只說了四個數字。1958年,中國出口糧食288.34萬噸,進口22.35萬噸。困難時期第一年,1959年,中國出口415.75萬噸,進口0.20萬噸,那年,聽說大家都好餓。別不多說,免得喝茶。

再舉個例子,這兩天淘寶首頁給我推送的個性化廣告除了情趣用品就是“花花公子”服飾大優惠,我不就是為了找素材和配圖搜了一下“情趣用品”麼?你們沒完沒了的給我推送這個,節操何在?如果你們能拿到我小學老師的評語,初中老師的評語和操行評定,高中老師的評語和操行評定,通過對多個來源不同的資料來源分析,那麼你們給我推送的一定會是《鋼鐵是怎麼煉成的》《雷鋒日記》等好書。(大學老師的評語就算了,那廝打CS被我蹂躪了太久容易懷恨在心。)

3.擁有大資料的身,也要有大資料的心

以往的資料分析,更多的是精確的樣本/深度的資料探勘,“精確”就是其代名詞。不符合規格的樣本過濾掉,然後再深度挖掘資料欄位間的關係,得出幾個精確無比數字去做PPT,或者從一系列資料裡精準的找到某個正一臉猥瑣偷拍姑娘的人。

但是大資料更多的是通過對各種資料分析得出某種趨勢,這種趨勢不必過於精確,但是能讓相關決策人有底氣去做某項決定。大資料不重要,重要的是使用大資料的人。

因為哪怕面向完全相同的資料來源,不同的人得出的結論或者決定也可能是截然不同的。三國赤壁大戰,當龐統獻計“若以大船小船各皆配搭,或三十為一排,或五十為一排,首尾用鐵環連鎖,上鋪闊板,休言人可渡,馬亦可走矣”時,同時聽到這話的兩個人,曹操下席而謝,“非先生良謀,安能破東吳耶!”,而徐庶卻私下裡扯住龐統“你好大膽,只恐燒不盡絕。”由此可見,“以人為本”是多麼精闢的一句廢話啊!

無論你NB還是SB,資料總在那裡,不離不棄。

4.強調趨勢和未來

大資料,更多的應該是分析過去,提醒現在,展望未來。無法用到實踐中去的大資料都是耍流氓,無論這個結果是造福了全人類,還是幫助網站提高1%轉化率,這都是有用的。

上圖這充滿著暴力氣息的玩意是當年冷戰期間美國和蘇聯研發的高速列車,他們將轟炸機上的渦輪直接裝在了火車頂上。其中美國的M-497號在1966年俄亥俄州的鐵軌上跑出了295.54公里/小時。雖然幾十年後,才有了現代高速鐵路,但是如果沒有最初的這種野蠻實驗,恐怕現在自主研發的高鐵也沒有那麼充足的底氣。

談趨勢談大資料,怎麼能不提谷歌的流感趨勢呢?谷歌分析自己上億次的搜尋查詢,近乎實時的提供全球許多國家和地區的流感疫情評估,從截圖可以看出,谷歌的趨勢曲線跟美國官方公佈的資料重合度非常高,但是後者在時間和效率上完全無法比擬谷歌趨勢。

如果你在準備出差的時候,發現你要去的地方正爆發鼠疫,我想大部分人肯定就哭著喊著辭職不去了。

再例如2012年美國某著名避孕套品牌釋出校園性健康報告,報告表明在美國大學生中,25%得了性病,其中排名第一的是尖銳溼疣,得病率最高的學校是位於科羅拉多州的美國空軍學院(U.S. AIR FORCE ACADEMY)。然後緊接著,無聊的我又從學院官網中看到學校男生佔比78.1%,女生佔比21.9%。

從這些資料至少我們可以分析出一個結果:跟海歸一夜情之前,請查一下學位證。

三、大資料應用瞎想

1.醫療服務

通過一系列的病歷等資料,得出某一類人的健康趨勢,例如“做IT8年”“每天加班6小時”“病中還堅持工作”“每天吃便當”“每天一包煙提神”“每天一杯咖啡提神”將這些標籤具體到某一群人,然後個性化的推送一條如上圖的資訊。

還有人要加班嗎?

2.罪案預警

通過對全市的歷史罪案以及出警紀錄得出城市各種罪案高發區域,例如剁手區/掏包區/性侵區……等等,每天釋出提醒,推送到市民的手機/平板等所有終端。我相信性侵區的流氓早晚會不堪重負而投案自首的。

3.大齡青年相親

此想法如果搭配上類似Google Glass的可穿戴裝置就更棒了,在上百人的男女相親大會上,你帶著功能齊全的眼鏡四處看妞,系統自動分析各種資料,幫你找到最搭配的另一半,按照匹配度自動走在一起。當然,如果那時紅外線透視功能很發達,能加入匹配度最高可以付費看裸體的VIP功能就更棒了。

最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 美運營商進入三國鼎立時代?Sprint或破產