回覆列表
-
1 # 一個存在感小透明
-
2 # IT人劉俊明
大資料作為產業網際網路的核心技術之一在未來具有廣闊的發展空間,大資料領域將逐漸構建以資料價值化為中心的生態體系,整個生態體系將涵蓋大量的相關企業和從業人員。由於資料價值化會直接關係到企業未來的運營和發展,所以大資料的應用領域將突破目前的網際網路行業向廣大的傳統行業發展,因此大資料的影響範圍將比較廣泛。對於職場人來說,掌握大資料相關技術已經不僅僅是技術人員的事情了,每個職場人都應該對大資料有一定的瞭解,因為未來的工作環境與大資料的關係會越來越緊密。
目前大資料的應用主要集中在網際網路企業和行業資訊企業,因為網際網路企業既有資料也有技術,而對於行業資訊企業來說,雖然手裡沒有資料但是有技術,透過與傳統企業合作來從事大資料相關業務。目前行業內圍繞大資料的相關崗位集中在資料採集、資料整理、資料儲存、資料分析、資料呈現和資料應用上,其中也涉及到多個技術崗位之間的合作,包括從事物聯網和雲計算的相關崗位。
對於軟體開發人員來說,從事大資料的崗位集中在大資料平臺研發、大資料應用開發和大資料分析上,其中大資料應用開發和大資料分析的相關崗位比較普遍。大資料應用開發人員的主要任務有兩個,一個是已有系統的大資料化,另一個是構建新的大資料應用。對於大資料分析人員來說,主要的開發任務是完成資料分析過程,通常需要採用統計學方式和機器學習方式,其中機器學習方式往往需要大量的程式開發。
簡單的說,在軟體開發人員的角度上來看,大資料領域主要的工作就是在一堆雜亂無章的資料中查找出其背後的規律。
透過大資料,谷歌能夠比醫院更早知道流感即將爆發,因為人們在去醫院之前,總是喜歡現在網路上查詢流感的特徵。當流感相關的query查詢量增加的時候,基本就可以預知,新一輪流感即將到來。
機率論有一個定律叫做“大數定律”,是說在隨機事件大量的重複中,往往呈現幾乎確定存在的規律,這個規律就是大數定律。通俗的說,只要資料量足夠大,偶然中就包含著某種必然。
可以說,現在大資料基本上滲透到我們生活的每個角落。
軟體開發者在大資料領域要做的首先是儲存這些資料,既然是海量資料,如何穩定的儲存與高效的讀取,是開發者面臨的第一個問題。在我之前的回答中我曾經提到,當資料量非常大的時候,MySql就算使用索引,也無法快速的響應複雜查詢了。因此,大資料的儲存通常拋棄MySQL,而改用ElasticSearch,這是一種在處理大資料查詢時有優異表現的產品。
只做儲存就失去了大資料的初衷。基於海量資料,分析出某種規律,從而預知某些事情,才是大資料的精妙之處。舉例支付寶,一直覬覦騰訊霸佔的社交領域,在電商領域獨大的它為何非要強推社交軟體呢?因為電商再強大,人們也不是天天要用(剁手黨除外),而社交是人們每天都離不開的需求,每天產生的資料不可估量,如果能夠從中分得一塊蛋糕,將會幫助支付寶分析出的更多更準確的使用者畫像,從而協助制定後續更有針對性的發展規劃。
因此,大資料的重要性不言而喻。