首頁>Club>
什麼叫大資料產業?想做大資料產業要有什麼技能?
7
回覆列表
  • 1 # 視界雲科技

    這裡從大資料和AI人工智慧關係層面做個簡單的分享!

    大資料:人工智慧背後的基石

    大資料是人工智慧的基石,目前的深度學習主要是建立在大資料的基礎上,即對大資料進行訓練,並從中歸納出可以被計算機運用在類似資料上的知識或規律。

    簡單而言何為大資料?

    雖然很多人將其定義為“大資料就是大規模的資料”。

    但是,這個說法並不準確!

    “大規模”只是指資料的量而言。

    資料量大,並不代表著資料一定有可以被深度學習演算法利用的價值。

    例如:地球繞太陽運轉的過程中,每一秒鐘記錄一次地球相對太陽的運動速度、位置,可以得到大量資料。可如果只有這樣的資料,其實並沒有太多可以挖掘的價值!

    大資料這裡我們參閱馬丁·希爾伯特的總結,今天我們常說的大資料其實是在2000年後,因為資訊交換、資訊儲存、資訊處理三個方面能力的大幅增長而產生的資料:

    資訊交換:據估算,從1986年到2007年這20年間,地球上每天可以透過既有資訊通道交換的資訊數量增長了約217倍,這些資訊的數字化程度,則從1986年的約20%增長到2007年的約99.9%。在數字化資訊爆炸式增長的過程裡,每個參與資訊交換的節點都可以在短時間內接收並存儲大量資料。

    資訊儲存:全球資訊儲存能力大約每3年翻一番。從1986年到2007年這20年間,全球資訊儲存能力增加了約120倍,所儲存資訊的數字化程度也從1986年的約1%增長到2007年的約94%。1986年時,即便用上我們所有的資訊載體、儲存手段,我們也不過能儲存全世界所交換資訊的大約1%,而2007年這個數字已經增長到大約16%。資訊儲存能力的增加為我們利用大資料提供了近乎無限的想象空間。

    資訊處理:有了海量的資訊獲取能力和資訊儲存能力,我們也必須有對這些資訊進行整理、加工和分析的能力。谷歌、Facebook等公司在資料量逐漸增大的同時,也相應建立了靈活、強大的分散式資料處理叢集。

    大資料在應用層面:大資料往往可以取代傳統意義上的抽樣調查、大資料都可以實時獲取、大資料往往混合了來自多個數據源的多維度資訊、大資料的價值在於資料分析以及分析基礎上的資料探勘和智慧決策。

    美國《大西洋月刊》公佈的一段A.I.聊天記錄截圖

    延伸閱讀:聊天機器人竟自創語言“對話” 臉書將其緊急關停

    實際上人工智慧的發展,離不開海量資料進行訓練,究其根本大資料的迴圈往復無數次的訓練和深度學習才有了人工+智慧!

    實際上人工智慧、大資料、物聯網以及雲計算,彼此之間皆存在著千絲萬縷的“親緣”關係!!!

  • 2 # 草原獨狼

    大資料,或稱巨量資料,指的是規模巨大到無法透過目前的主流軟體工具,在合理時間內達到擷取、管理、處理的資料集合。這個概念指的是需要處理的資訊量過大,已經超出了一般電腦在處理資料時所能使用的記憶體量,因此必須改進處理資料的工具。

    大資料有四個特點(4V):大量(Volume),高速(Velocity),多樣(Variety),價值(Value)。大資料的資料體量特別巨大,目前已經從TB級別躍升到PB級別;大資料的資料型別繁多,網路日誌、影片、圖片、地理位置資訊等都是大資料考慮的;大資料要求處理速度快,能從各種型別的資料中快速獲得高價值的資訊。合理利用資料並對其進行準確的分析,將會帶來很高的價值回報。

    大資料的核心是預測。在大資料時代下,越來越多的資料被記錄和整理,預測分析已經 在商業和社會中得到了廣泛的應用。

    大資料與三個重大的思維轉變有關,這三個轉變是相互聯絡和相互作用的。首先,大資料不再依靠少量的資料樣本來分析,而是依靠於某事物相關的所有資料;其次,大資料樂於接受資料的紛繁複雜,而不再追求精確性;最後,大資料不再追求難以捉摸的因果關係,轉而專注事物的相關關係。

    大資料也給我們帶來了巨大的風險。它使得目前用於保護隱私的法律手段和核心技術失去了效果。過去個人身份資訊包含的是名字、社會安全號碼、稅收記錄等,構成簡單明瞭,因此隱私保護相對比較簡單。而今天即使是最無害的資料,只要被資料收集器採集到足夠的量,也會暴露個人身份。

  • 3 # 讀芯術

    大資料

    解釋起來很簡單了:大資料就是大量的資料。

    要定義大資料,通常會用3V來解釋,這是產生大資料的3個主要原因:

    · 容量:收集的資料量每分鐘都在巨幅增長,我們需要使用分散式解決方案(使用多臺機器,而不是非常非常昂貴的超級計算機/主機)來調整我們的儲存和處理工具以適應該容量。

    · 速度:處理資料的緊急程度與產生/獲取資料的頻率相關,還與決策中迫切使用資料的需求有關;即使是實時(或者幾乎實時)。

    · 種類:資料不再(僅)是結構化的,所以我們得忘記適用於傳統資料庫的東西。我們必須為新增各種格式的新資料來源做準備;純文字和多媒體內容都包括在內。

    之後更多V被新增進來:真實性 (資料必須真實、可靠、可用)、價值(資料應有商業或社會價值)、易損性(資料必須合法、尊重隱私,並以安全的方式儲存和訪問)。

    大資料可能是解決這些問題的方案。不要把它和本文解釋的第一個概念混淆了:大資料就是實現或促進應用資料科學領域先進技術的事物,是資料的本質要求。例如,作為資料科學家,我們試圖從資料集中得到答案。資料集不僅超過了RAM的大小,還超過了硬碟的大小。大資料為我們提供了跨多臺機器承載資料的分散式儲存技術,以及並行處理資料的分散式處理技術。

    我們一起分享AI學習與發展的乾貨

  • 中秋節和大豐收的關聯?
  • 為什麼現在這麼多人玩鍾馗?