回覆列表
  • 1 # 西線學院

      大資料時代的到來,是全球知名諮詢公司麥肯錫最早提出的,麥肯錫稱:“資料,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”

      《網際網路進化論》一書中提出“網際網路的未來功能和結構將於人類大腦高度相似,也將具備網際網路虛擬感覺,虛擬運動,虛擬中樞,虛擬記憶神經系統” ,並繪製了一幅網際網路虛擬大腦結構圖。

      根據這一觀點,我們嘗試分析目前網際網路最流行的四個概念————-大資料,雲計算,物聯網和移動網際網路與傳統網際網路之間的關係。

      從這幅圖中我們可以看出:

      物聯網對應了網際網路的感覺和運動神經系統。

      雲計算是網際網路的核心硬體層和核心軟體層的集合,也是網際網路中樞神經系統萌芽。

      大資料代表了網際網路的資訊層(資料海洋),是網際網路智慧和意識產生的基礎。

      包括物聯網,傳統網際網路,移動網際網路在源源不斷的向網際網路大資料層匯聚資料和接受資料。

      作為資料儲存巨頭,大資料理念是,首先從“大”入手,“大”肯定是指大型資料集,一般在10TB規模左右。很多使用者把多個數據集放在一起,形成PB級的資料量。同時從資料來源來談,大資料是指這些資料來自多種資料來源,以實時、迭代的方式來實現。

      物聯網所需要感受的物件物件範圍非常之寬,物聯網收集資料,我們剛剛說虛擬東西也是物聯網物件,我們看很多東西收集,如瀏覽器、搜尋引擎、智慧終端、遊戲終端、GPS等,他透過大家日常網路留下痕跡和腳印獲取大量的資料。

      物聯網產生大資料。美華人前幾年醫院一年產生500個數據,IMT1。4TB資料等各種的資料透過感測器產生,也有在網上直接產生的,我們現在處於大資料時代,物聯網一分鐘可以產生非常多的東西,蘋果下載2萬餘次,一分鐘會上傳10萬條新微博,全世界物聯網上虛擬網路上,產生了大量的資料。

      從技術上看,大資料與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大資料必然無法用單臺的計算機進行處理,必須採用分散式架構。它的特色在於對海量資料進行分散式資料探勘,但它必須依託雲計算的分散式處理、分散式資料庫和雲端儲存、虛擬化技術。

      物聯網、移動網際網路再加上傳統網際網路,每天都在產生海量資料,而大資料又透過雲計算的形式,將這些資料篩選處理分析,提前出有用的資訊,這就是大資料分析。所以說,大資料、雲計算、物聯網和網際網路都是密切相關的,國家大力倡導發展大資料產業,主要歸結於網際網路、移動裝置、物聯網和雲計算等快速崛起,全球資料量大大提升。

      大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,透過“加工”實現資料的“增值”。

  • 2 # 加米穀大資料

    大資料(bigdata),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。

      大資料特徵分析

      大資料,不僅有“大”這個特點,除此之外,它還有很多其他特色。在這方面,業界各個廠商都有自己獨特的見解,但是總體而言,可以用“4V+1C”來概括,“4V+1C分別代表了Variety(多樣化)、Volume(海量)、Velocity(快速)、Vitality(靈活)以及Complexity(複雜)這五個單詞。

      1、Variety(多樣化)

      大資料一般包括以事務為代表的結構化資料、以網頁為代表的半結構化資料和以影片和語音資訊為代表的非結構化等多類資料,並且它們的處理和分析方式區別很大。

      與大資料現象有關的資料量為嘗試處理它的資料中心帶來了新的挑戰:它多樣的種類。隨著感測器、智慧裝置以及社交協作技術的激增,企業中的資料也變得更加複雜,簡言之,種類表示所有的資料型別。

      2、Volume(海量)

      如今儲存的資料數量正在急劇增長,毫無疑問我們正深陷在資料之中。我們儲存所有事物:環境資料、財務資料、醫療資料、監控資料等。有關資料量的對話已從TB級別轉向PB級別,並且不可避免地會轉向ZB級。現在經常聽到一些企業使用儲存叢集來儲存數PB的資料。隨著可供企業使用的資料量不斷增長,可處理、理解和分析的資料比例卻不斷下降。

      3、Velocity(快速)

      大資料要求快速處理,因為有些資料存在時效性。比如電商的資料,假如今天資料的分析結果要等到明天才能得到,那麼將會使電商很難做類似補貨這樣的決策,從而導致這些資料失去了分析的意義。

      4、Vitality(靈活)

      在網際網路時代,和以往相比,企業的業務需求更新的頻率加快了很多,那麼相關大資料的分析和處理模型必須快速地適應新的業務需求。

      5、Complexity(複雜)

      雖然傳統的BI已經很複雜了,但是由於前面4個V的存在,使得針對大資料的處理和分析更艱鉅,並且過去那套基於關係型資料庫的BI開始有點不合時宜了,同時也需要根據不同的業務場景,採取不同的處理方式和工具。

    大資料技術平臺的選擇:

    選擇一個合適的大資料技術平臺是非常重要的,它能夠使得大資料應用開發更加容易、讓開發人員更集中精力在業務層面的資料分析與處理上。一些共性的基礎問題,例如資料如何儲存、如何檢索、資料統計等,就可以由平臺來完成。選擇合適的大資料技術平臺應當考慮以下因素:

    • 平臺的功能與效能:

    由於不同平臺側重的功能不同,平臺的效能也就有很多需要考察的方面。比如對於儲存平臺來說,資料的儲存效率、讀寫效率、併發訪問能力、對結構化與非結構化資料儲存的支援,所提供的資料訪問介面等方面就是比較重要的。對於大資料探勘平臺來說,所支援的挖掘演算法、演算法的封裝程度、資料探勘結果的展示能力、挖掘演算法的時間和空間複雜度等,是比較重要的指標。

    • 平臺的整合度

    好的平臺應該具有較高的整合度,為使用者提供良好的操作介面,具有完善的幫助和使用手冊、系統易於配置、移植性好。同時隨著目前軟體開源的趨勢,開源平臺有助於其版本的快速升級,儘快發現其中的bug,此外,開源的架構也比較容易進行擴充套件,植入更多的新演算法,這對於終端使用者而言也是比較重要的。

    • 是否符合技術發展趨勢:

    大資料技術是當前發展和研究的熱點,其最終將走向逐步成熟,可以預見在這個過程中,並非所有的技術平臺都能生存下來。只有符合技術發展趨勢的技術平臺才會被使用者、被技術開發人員所接受。因此,一些不支援分散式、叢集計算的平臺大概只能針對較小的資料量,側重於對挖掘演算法的驗證。而與雲計算、物聯網、人工智慧聯絡密切的技術平臺將成為主流,是技術發展趨勢。

    同時應當充分意識到,技術迭代更新速度加快,當我們花很多時間去掌握熟悉某種技術平臺後,可能新的更好的技術平臺出現了,導致我們受累奔波於各種技術平臺,因此,最好的策略就是全面系統地掌握大資料技術的原理和實現方案,這樣學習新的技術平臺就很容易上手。

  • 中秋節和大豐收的關聯?
  • 40歲女人用哪款面膜好?40歲面膜排行榜10強推薦?