-
1 # 般若波羅蜜
-
2 # 西線學院
如果你說大資料就是資料大,或者侃侃而談4個V,也許很有深度的談到BI或預測的價值,又或者拿Google和Amazon舉例,技術流可能會聊起Hadoop和Cloud Computing,不管對錯,只是無法勾勒對大資料的整體認識,不說是片面,但至少有些管窺蠡測、隔衣瘙癢了。……也許,“解構”是最好的方法。
怎樣結構大資料?
首先,我認為大資料就是網際網路發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的資料開始容易被利用起來了,透過各行各業的不斷創新,大資料會逐步為人類創造更多的價值。
其次,想要系統的認知大資料,必須要全面而細緻的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大資料的特徵定義理解行業對大資料的整體描繪和定性;從對大資料價值的探討來深入解析大資料的珍貴所在;從對大資料的現在和未來去洞悉大資料的發展趨勢;從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。
第二層面是技術,技術是大資料價值體現的手段和前進的基石。我將分別從雲計算、分散式處理技術、儲存技術和感知技術的發展來說明大資料從採集、處理、儲存到形成結果的整個過程。
第三層面是實踐,實踐是大資料的最終價值體現。我將分別從網際網路的大資料,政府的大資料,企業的大資料和個人的大資料四個方面來描繪大資料已經展現的美好景象及即將實現的藍圖。
和大資料相關的理論
特徵定義
最早提出大資料時代到來的是麥肯錫:“資料,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”
業界(IBM 最早定義)將大資料的特徵歸納為4個“V”(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,資料體量巨大。大資料的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,資料型別繁多。比如,網路日誌、影片、圖片、地理位置資訊等等。第三,價值密度低,商業價值高。第四,處理速度快。最後這一點也是和傳統的資料探勘技術有著本質的不同。
其實這些V並不能真正說清楚大資料的所有特徵,下面這張圖對大資料的一些相關特性做出了有效的說明。
古語云:三分技術,七分資料,得資料者得天下。先不論誰說的,但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大資料時代》一書中舉了百般例證,都是為了說明一個道理:在大資料時代已經到來的時候要用大資料思維去發掘大資料的潛在價值。書中,作者提及最多的是Google如何利用人們的搜尋記錄挖掘資料二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用使用者的購買和瀏覽歷史資料進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折資料,來預測使用者購買機票的時機是否合適。
那麼,什麼是大資料思維?維克托·邁爾-舍恩伯格認為,1-需要全部資料樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關係。
阿里巴巴的王堅對於大資料也有一些獨特的見解,比如,
“今天的資料不是大,真正有意思的是資料變得線上了,這個恰恰是網際網路的特點。”
“非網際網路時期的產品,功能一定是它的價值,今天網際網路的產品,資料一定是它的價值。”
“你千萬不要想著拿資料去改進一個業務,這不是大資料。你一定是去做了一件以前做不了的事情。”
特別是最後一點,我是非常認同的,大資料的真正價值在於創造,在於填補無數個還未實現過的空白。
有人把資料比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大資料並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要。
回覆列表
其實,我也很想知道問題的答案,拋磚引玉,望各路高手指點,大資料簡而言之講就是很多的資料匯聚在一起,各種各樣的資料,我們用百度搜索過的問題,百度都應該會有相關的記錄,然後分析,分析使用者的行為和習慣,然後定向進行廣告投放,大資料最終是要服務於社會的,可以給生活帶來更便捷的方式,淘寶,京東,阿里吧爸都會進行資料分型,電商資料的分心,就是對使用者消費行為的分析。