-
1 # 科技城生活
-
2 # 鋼鐵資料俠
談到大資料,一定會提到三個小案例:第一個例子是某個未婚少女懷孕了,甚至她老爸也不知道這件事兒,但是商家卻打電話過來問需不需要買孕婦用品。第二個是經典的“啤酒和尿布”的例子,這個例子比較早,講的是基於關聯規則分析來預測超市裡面顧客購買行為規律。第三個是近年來才吵吵的比較火熱的例子,是谷歌通過搜尋引擎裡面的關鍵詞檢索日誌的時間序列資料成功預測了流感爆發的時間和規模。第一個例子背後是基於精準營銷,是大資料針對個人級別的應用,第二個例子能夠有效預測零售商需求,屬於企業級別應用,而第三個例子則是地區級別和國家級別的應用。由此可看出,當大資料真正走進生活、走進社會,其施展能量的力度越來越大,越來越強。最後,大資料這個概念就被吹的神乎其神了。
當我們聽到這些大資料的應用案例時,會很自然地去質疑這些案例的可靠性。心中不免默唸,這玩意兒的確有如此靠譜麼?而其中最讓人感覺不靠譜的,無疑是第三個,Google預測流感這件事兒。2009年2月19日,Nature上面有一篇文章,“Detecting influenza epidemics using search engine query data”(感興趣的朋友可以關注以下),論述了Google基於使用者的搜尋日誌(其中包括,搜尋關鍵詞、使用者搜尋頻率以及使用者IP地址等資訊)的彙總資訊,成功“預測”了流感病人的就診人數。
那麼,Google為什麼要幹這件事兒呢?美國有個很牛的部門叫CDC,也就是疾控中心,這個部門統計美國本土各個地區的疾病就診人數然後彙總,最後公佈出來。但是呢,這個公佈的資料的結果一般要延遲兩週左右,也就是說當天的流感的全國就診人數,要在兩週之後才知道,Google呢就利用他的搜尋引擎搭建了一個預測平臺,把這個資料提前公佈出來。所以說,Google做的工作並不是實際意義上的預測什麼時候流感來,而是將CDC已經獲得但是沒及時公佈的資料提前給猜出來,然後公佈出來。當然,CDC為什麼不及時公佈資料,人家官方總是有自己的一堆理由的,我等草民不得而知,但是有一點是重要的,就是“越及時的資料,價值越高”,資料是有價值屬性的。所以,Google的工作無論在公共管理領域還是商業領域都具有重大的意義。
Google的研究結果公佈出來以後,大眾對於這個研究案例的好評和差評都有不少,總之,引起了社會的熱議,這個例子從而也成了經典的案例。那麼社會為什麼會對這個例子予以如此重要的關注呢?其原因就在於,如果在這個案例上成功了,Google就真正證明了大資料是“萬能的”這件事,從而徹底顛覆社會對於大資料的看法。
首先,Google在這個研究中對於資料的處理只用了很簡單的Logistic迴歸關係,稍微有點兒高中數學基礎的朋友很快就可以理解應用,但是卻成功地預測了複雜的流感規模的問題。Google用了簡單的方法,預測複雜的問題。這件事為什麼能成?根本就在於,Google的資料量大。這就是Google對於大資料的價值觀。而大就是一切!Google有著世界上最大的搜尋引擎,全世界每個使用者的搜尋行為都給存在Google的資料庫裡,Google想,我有這麼多資料,不是想知道啥就知道啥。於是Google就做了這個偉大的事兒!
回過頭來看三個經典的案例,從系統的角度上來看,一個人是一個小系統,一家超市是一箇中等規模的系統,而一個國家一個地區則是一個超大的社會系統。如果要對一件事進行預測和分析,資料分析師要做兩件事,一、構造理論模型;二、獲取實證資料來擬合構造模型。對於小型簡單系統,構造理論模型是可行的,而對於大規模的複雜系統,模型的構造則十分艱難(這也正是社會學家們每天忙碌研究的課題,也正是為什麼社會革命家和思想家是如此的偉大,像馬克思等等…)。大資料的觀點之一認為,海量的資料可以彌補模型的不足,如果資料足夠大,理論模型甚至根本就不需要。這種觀點目前仍然處於爭論中,搞理論的和搞實證(強調資料和統計方法)的專家們對此的口舌之戰從沒有停歇過。但無論如何,Google對於流感預測的研究無疑站在了支援大資料的一方,如果Google的案例是成功的,那麼或許,擁有海量資料就真的意味著可以解決任意複雜的問題,大資料解決大問題!
上面的論述講了半天Google案例的重要性,所以接下來,業界就把所有的目光凝聚在了Google預測的結果上。截止到Nature上面那篇Paper發表出來的時候,Google的預測還是準確的,不過到後來就發生了很大的偏差,偏差最大甚至高出了標準值(CDC公佈的結果)將近一倍。
開始理論學家們是沮喪的,看到Google仗著自己龐大的資料庫,在醫療監控這種複雜問題的預測分析過程中為所欲為,覺得自己馬上就要下崗。然而時間到了2012年中旬的時候,他們就樂了,發現Google也不過如此,自己還是有價值的,實際上情況也確實如此。Google預測的失敗也確實是過度地依賴於資料,導致很多被忽略了的因素對預測的結果產生了很大的影響。對客觀世界進行預測需要模型,模型首先來自於理論構造,其次需要資料對模型進行訓練對模型進行優化完善。大資料觀點強調模型對資料訓練的依賴,而儘可能地忽略理論構造這一部分的意義,這就有可能帶來隱患。
從更加批判的角度來看,理論模型當中的確有一部分因素可以用資料量的規模來彌補,而仍然有一部分是不可彌補的。可彌補的部分因素,往往在資料量比較大的時候,被均勻的資料分佈內部平滑抵消掉了,從整體上不會對最終的結果產生顯著影響;而不可彌補的部分,往往和系統背後的結構性因素有關,這些因素不僅不會隨著資料規模的增加而被消除,反而會由於系統的規模效應逐級放大最終產生背道而馳的結論。那麼當資料分析專家需要對複雜的社會系統進行分析時,就一定要嚴謹地考慮對資料的依賴程度。因此,Google的案例既是一個很好的大資料的應用,同時其也為大資料在未來的發展道路上起到了很好的指示燈的作用。最後還是那句調侃的話:”Big Data is like teenage sex. Everyone talks about it, nobodyreally knows how to do it, everyone thinks everyone else is doing it, soeveryone else claims they are doing it too”。
你又是對大資料怎麼理解的呢?
-
3 # 螞蚱小螞蚱
大資料,顧名思義,“大”該是應有之義,大資料的定義最初與容量有關係。業界有幾種對大資料的定義,其中一個共同點就是資料的容量超出了原有的儲存、管理和處理能力。
已經被應用到了各個行業,包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內的社會各行各業都已經融入了大資料的印跡,5G 時代大資料大資料將無處不在
金融行業,大資料在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。
汽車行業,利用大資料和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活。
網際網路行業,藉助於大資料技術,可以分析客戶行為,進行商品推薦和針對性廣告投放。
餐飲行業,利用大資料實現餐飲O2O模式,徹底改變傳統餐飲經營方式。
電信行業,利用大資料技術實現客戶離網分析,及時掌握客戶離網傾向,出臺客戶挽留措施。
能源行業,隨著智慧電網的發展,電力公司可以掌握海量的使用者用電資訊,利用大資料技術分析使用者用電模式,可以改進電網執行,合理設計電力需求響應系統,確保電網執行安全。
物流行業,利用大資料優化物流網路,提高物流效率,降低物流成本。
城市管理,可以利用大資料實現智慧交通、環保監測、城市規劃和智慧安防。
-
4 # 人生短短三十年
大資料說到底就是一個大字。到底有多大看拿維基百科上的例子來說,CERN做的LHC(大型強子對撞機)周長27公里,裡面一共有1.5億個感測器,每秒鐘讀數達四千萬次。每秒鐘發生的粒子對撞高達6億次。剔除99.999%的無用資料,每秒鐘也有100次碰撞需要記錄。如果在這些資料裡面僅僅使用十萬分之一,那麼一年也要積累25 petabytes的資料,相當於25000個1TB的硬碟。
在這些資料裡尋找希格斯玻色子的證據,是真正的大海撈針。這麼大的資料你給我用Excel算算看看不要說計算,根本連載入記憶體都不可能。
再比如說,Facebook據說擁有500億以上的使用者照片。前些日子美國波士頓發生了爆炸案。這些照片裡可能就有爆炸案的線索。那你給我找找看那張照片上面有嫌犯看波士頓馬拉松僅運動員就有兩三萬人,圍觀群眾近五十萬。在同一時間同一地點拍攝的照片可能有幾十萬張,錄影可能有幾千小時。用人工一張一張看過來是不切實際的。如果要考察爆炸案前後幾天的照片那就更不現實了。還有的照片根本就沒有時間和地點資訊。
再舉一個例子。2009年華盛頓大學的研究人員使用15萬張Flickr上的圖片,重建了整個羅馬城的3D模型。整個重建過程的計算使用了496個CPU核心,耗時8小時。如果每張照片按100KB計算,總資料量達到15GB。至少要達到這個級別的資料,才能稱得上大資料。
-
5 # 藍鼻子的喬巴
1、我理解的大資料就是:資料量大(Volume)、資料種類多樣(Variety)、 要求實時性強(Velocity) 。對它關注也是因為它蘊藏的商業價值大(Value)。也是大資料的4V特性。符合這些特性的,叫大資料。
2、對它關注一個原因就它的大價值,比方ebay,建立的大資料分析平臺可以準確分析使用者的購物行為。通過對顧客的行為進行跟蹤、對搜尋關鍵字廣告的投入產出進行衡量,優化後eBay 產品銷售的廣告費降低了99%,頂級賣家佔總銷售額的百分比卻上升至32%。就大資料價值這一塊,例子很多,詳情可以再自己查查。
再一個對它關注的原因就是因為這麼大量和複雜的資料確實不好管理,這樣就有了處理大資料的一些技術,比如Hadoop。Hadoop是個開源的,像百度做搜尋,就用Hadoop管理資料。淘寶在2011年11月11日,搞得優惠活動,你想想在零點的時候,淘寶點選有多高,每一筆買賣算一個數據請求,那怎麼保證網站的正常運轉啊?這些就是一些技術方面的關注了。
3、它的作用更多,拿球賽說,我們現在可以通過比賽錄影找出對手缺點了。有個大資料應用是視訊教練工具,用這個工具,球員可以比較和對比同一投球手的不同投球,或是幾天或幾周的投球情況的時間序列資料。
4、解決的問題。你問的大資料解決什麼問題,應該是處理大資料的技術解決什麼問題。通過我上面說的,你大概也能知道一點了,管理大規模的複雜資料需要用到大資料的技術,通過大資料的技術把這些大資料管理分析好了,可以使企業領導對各方面有更明確的認識,做出更好的決策。
總結下:大資料更多的體現資料的價值。各行業的資料都越來越多,在大資料情況下,如何保障業務的順暢,有效的管理分析資料,能讓領導層做出最有利的決策。這是關注大資料的原因。也是大資料技術要解決的問題。
這些都是我自己寫的我個人的理解,供你參考。再有不明白的可以百度,或者加追問咱們共同探討。嘿嘿。
-
6 # 然得品宣
把大量的碎片資訊通過一定的規則聯絡起來。
用於企業決策,分析客戶需求。產品推廣定位等。
這次疫情對大資料的應用就是一個好例子。把一個人的行程通過大資料比對。即使一個患者不知道自己何時感染的,通過大資料比對仍可以知道傳播途徑。
-
7 # 放心籤
1、大資料包括的內容很多,簡單的說,人的一切行為活動的集合可以被稱作大資料。
2、大資料可應用的方面也很多,比如廣告推送等等。
3、大資料的應用,以此次疫情為例,支付寶推出的“健康碼”,就是大資料的成功應用
支付寶通過大資料分析使用者的行程軌跡,比如“地域”“交通情況”等等,分析出一個使用者是否有感染的可能,根據風險的高低分配“綠碼”“黃碼”“紅碼”。
“大資料”已經不遠了,離我們很近,幾乎已經深入生活了。
-
8 # 寧靜視窗
大資料:所有資料的集合!
大資料具有五大特點,稱為5V。
1. 多樣(Variety)
2. 大量(Volume)
大資料的大量性是指資料量的大小,這個就是上面筆者介紹的內容,不再贅述。
3. 高速(Velocity)
大資料的高速性是指資料增長快速,處理快速,每一天,各行各業的資料都在呈現指數性爆炸增長。在許多場景下,資料都具有時效性,如搜尋引擎要在幾秒中內呈現出使用者所需資料。企業或系統在面對快速增長的海量資料時,必須要高速處理,快速響應。
4. 低價值密度(Value)
大資料的低價值密度性是指在海量的資料來源中,真正有價值的資料少之又少,許多資料可能是錯誤的,是不完整的,是無法利用的。總體而言,有價值的資料佔據資料總量的密度極低,提煉資料好比浪裡淘沙。
5. 真實性(Veracity)
大資料的真實性是指資料的準確度和可信賴度,代表資料的質量。
大資料常見領域:
當你在淘寶反覆搜尋某一類商品時,如數碼,你就會發現,每次你開啟淘寶領取紅包後,你紅包消費的內容就是你經常搜尋的內容。
當你在美團訂購外賣的時候,經常訂漢堡的,你每次開啟都會出現很多漢堡店。你經常訂麻辣燙,自然而然的也會出現類似的外賣店。
當然,最為成功的就是AI智慧了,華為最先推出AI智慧,就是通過大資料收集使用者的生活習慣,從而更方便的為使用者服務。
-
9 # 北青王林
大資料+人工智慧+超級計算機+管控紀律,對於自媒體來說,各位應該好好研究,在這樣的前提環境下,各自的發展之路。
這個絕不是簡單理解的問題,它關係到整個生態系統乃至於整個國家的未來。
-
10 # 北漂小老鼠
/01
大資料的定義
首先,我們看看大資料的定義。
行業裡對大資料的定義有很多,有廣義的定義,也有狹義的定義。
廣義的定義,有點哲學味道——大資料,是指物理世界到數字世界的對映和提煉。通過發現其中的資料特徵,從而做出提升效率的決策行為。
狹義的定義,是技術工程師給的——大資料,是通過獲取、儲存、分析,從大容量資料中挖掘價值的一種全新的技術架構。
相比較而言,狹義定義更好理解一些。
大家注意,關鍵詞我都在上面原句加粗了:
要做什麼?——獲取資料、儲存資料、分析資料
對誰做?——大容量資料
目的是什麼?——挖掘價值
獲取資料、儲存資料、分析資料,這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在幹這個事。
例如,每月的月初,考勤管理員會獲取每個員工的考勤資訊,錄入Excel表格,然後存在電腦裡,統計分析有多少人遲到、缺勤,然後扣TA工資。
但是,同樣的行為,放在大資料身上,就行不通了。換言之,傳統個人電腦,傳統常規軟體,無力應對的資料級別,才叫“大資料”。
/02
大資料,到底有多大?
我們傳統的個人電腦,處理的資料,是GB/TB級別。例如,我們的硬碟,現在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關係,大家應該都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大資料是什麼級別呢?PB/EB級別。
大部分人都沒聽過。其實也就是繼續乘以1024:
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,只需要一塊硬碟可以儲存。容量大約是20萬張照片或20萬首MP3音樂,或者是20萬部電子書。
普通硬碟
1PB,需要大約2個機櫃的儲存裝置。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽1900年。。。
2個機櫃
1EB,需要大約2000個機櫃的儲存裝置。如果並排放這些機櫃,可以連綿1.2公里那麼長。如果擺放在機房裡,需要21個標準籃球場那麼大的機房,才能放得下。
21個籃球場
阿里、百度、騰訊這樣的網際網路巨頭,資料量據說已經接近EB級。
阿里資料中心內景
EB還不是最大的。目前全人類的資料量,是ZB級。
1 ZB = 1024 EB (ZB - zettabyte)
2011年,全球被建立和複製的資料總量是1.8ZB。
而到2020年,全球電子裝置儲存的資料,將達到35ZB。如果建一個機房來儲存這些資料,那麼,這個機房的面積將比42個鳥巢體育場還大。
資料量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。
目前的大資料應用,還沒有達到ZB級,主要集中在PB/EB級別。
大資料的級別定位
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
/03
資料的增長,為什麼會如此之快?
說到這裡,就要回顧一下人類社會資料產生的幾個重要階段。
大致來說,是三個重要的階段。
第一個階段,就是計算機被髮明之後的階段。尤其是資料庫被髮明之後,使得資料管理的複雜度大大降低。各行各業開始產生了資料,從而被記錄在資料庫中。這時的資料,以結構化資料為主(待會解釋什麼是“結構化資料”)。資料的產生方式,也是被動的。
世界上第一臺通用計算機-ENIAC
第二個階段,是伴隨著網際網路2.0時代出現的。網際網路2.0的最重要標誌,就是使用者原創內容。隨著網際網路和行動通訊裝置的普及,人們開始使用部落格、facebook、youtube這樣的社交網路,從而主動產生了大量的資料。
第三個階段,是感知式系統階段。隨著物聯網的發展,各種各樣的感知層節點開始自動產生大量的資料,例如遍佈世界各個角落的感測器、攝像頭。
經過了“被動-主動-自動”這三個階段的發展,最終導致了人類資料總量的極速膨脹。
/04
大資料的4個V
行業裡對大資料的特點,概括為4個V。
前面所說的龐大資料體量,就是Volume(海量化)。除了Volume之外,剩下三個,分別是Variety、Velocity、Value。
我們一個一個來介紹。
Variety(多樣化)
資料的形式是多種多樣的,包括數字(價格、交易資料、體重、人數等)、文字(郵件、網頁等)、影象、音訊、視訊、位置資訊(經緯度、海拔等),等等,都是資料。
資料又分為結構化資料和非結構化資料。
從名字可以看出,結構化資料,是指可以用預先定義的資料模型表述,或者,可以存入關係型資料庫的資料。
結構化資料
例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化資料。
而網頁文章、郵件內容、影象、音訊、視訊等,都屬於非結構話資料。
在網際網路領域裡,非結構化資料的佔比已經超過整個資料量的80%。
大資料,就符合這樣的特點:資料形式多樣化,且非結構化資料佔比高。
Velocity(時效性)
大資料還有一個特點,那就是時效性。從資料的生成到消耗,時間視窗非常小。資料的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現在的按秒甚至毫秒變化。
我們還是用數字來說話:
就在剛剛過去的這一分鐘,資料世界裡發生了什麼?
Email:2.04億封被髮出
Google:200萬次搜尋請求被提交
Youtube:2880分鐘的視訊被上傳
Facebook:69.5萬條狀態被更新
Twitter:98000條推送被髮出
12306:1840張車票被賣出
……
怎麼樣?是不是瞬息萬變?
Value(價值密度)
最後一個特點,就是價值密度。
大資料的資料量很大,但隨之帶來的,就是價值密度很低,資料中真正有價值的,只是其中的很少一部分。
例如通過監控視訊尋找犯罪分子的相貌,也許幾TB的視訊檔案,真正有價值的,只有幾秒鐘。
2014年美國波士頓爆炸案,現場調取了10TB的監控資料(包括移動基站的通訊記錄,附近商店、加油站、報攤的監控錄影以及志願者提供的影像資料),最終找到了嫌疑犯的一張照片。
/05
大資料的價值
剛才說到價值密度,也就說到了大資料的核心本質,那就是價值。
人類提出大資料、研究大資料的主要目的,就是為了挖掘大資料裡面的價值。
大資料,究竟有什麼價值?
2012年的世界經濟論壇指出:“資料已經成為一種新的經濟資產類別,就像貨幣和黃金一樣”。這無疑將大資料的價值推到了前所未有的高度層面上。
如今,大資料應用開始走進我們的生活,影響我們的衣食住行。
滴滴的大資料殺熟,相信大家都有所耳聞
之所以大資料會有這麼快的發展,就是因為越來越多的行業和企業,開始認識到大資料的價值,開始試圖參與挖掘大資料的價值。
歸納來說,大資料的價值主要來自於兩個方面:
1 幫助企業瞭解使用者
大資料通過相關性分析,將客戶和產品、服務進行關係串聯,對使用者的偏好進行定位,從而提供更精準、更有導向性的產品和服務,提升銷售業績。
典型的例子就是電商。
像阿里淘寶這樣的電子商務平臺,積累了大量的使用者購買資料。在早期的時候,這些資料都是累贅和負擔,儲存它們需要大量的硬體成本。但是,現在這些資料都是阿里最寶貴的財富。
通過這些資料,可以分析使用者行為,精準定位目標客群的消費特點、品牌偏好、地域分佈,從而引導商家的運營管理、品牌定位、推廣營銷等。
大資料可以對業績產生直接影響。它的效率和準確性,遠遠超過傳統的使用者調研。
除了電商,包括能源、影視、證券、金融、農業、工業、交通運輸、公共事業等,都是大資料的用武之地。
大資料甚至能夠幫助競選總統
2 幫助企業瞭解自己
除了幫助瞭解使用者之外,大資料還能幫助瞭解自己。
企業生產經營需要大量的資源,大資料可以分析和鎖定資源的具體情況,例如儲量分佈和需求趨勢。這些資源的視覺化,可以幫助企業管理者更直觀地瞭解企業的運作狀態,更快地發現問題,及時調整運營策略,降低經營風險。
總而言之,“知己知彼,百戰百勝”。大資料,就是為決策服務的。
/06
大資料和雲端計算
說到這裡,我們要回答一個很多人心裡都存在的疑惑——大資料和雲端計算之間,到底有什麼關係?
可以這麼解釋:資料本身是一種資產,而云計算,則是為挖掘資產價值提供合適的工具。
從技術上,大資料是依賴於雲端計算的。雲端計算裡面的海量資料儲存技術、海量資料管理技術、分散式計算模型等,都是大資料技術的基礎。
雲端計算就像是挖掘機,大資料就是礦山。如果沒有云計算,大資料的價值就發揮不出來。
相反的,大資料的處理需求,也刺激了雲端計算相關技術的發展和落地。
也就是說,如果沒有大資料這座礦山,雲端計算這個挖掘機,很多強悍的功能都發展不起來。
套用一句老話——雲端計算和大資料,兩者是相輔相成的。
/07
大資料和物聯網(5G)
第二個問題,大資料和物聯網有什麼關係?
這個問題我覺得大家應該能夠很快想明白,前面其實也提到了。
物聯網就是“物與物互相連線的網際網路”。物聯網的感知層,產生了海量的資料,將會極大地促進大資料的發展。
同樣,大資料應用也發揮了物聯網的價值,反向刺激了物聯網的使用需求。越來越多的企業,發覺能夠通過物聯網大資料獲得價值,就會願意投資建設物聯網。
其實這個問題也可以進一步延伸為“大資料和5G之間的關係”。
即將到來的5G,通過提升連線速率,提升了“人聯網”的感知,也促進了人類主動創造資料。
另一方面,它更多是為“物聯網”服務的。包括低延時、海量終端連線等,都是物聯網場景的需求。
5G刺激物聯網的發展,而物聯網刺激大資料的發展。所有通訊基礎設施的強大,都是為大資料崛起鋪平道路。
/08
大資料的產業鏈
接下來再說說大資料的產業鏈。
大資料的產業鏈,和大資料的處理流程是緊密相關的。簡單來說,就是生產資料、聚合資料、分析資料、消費資料。
每個環節,都有相應的角色玩家。如下圖:
從目前的情況來看,國外廠商在大資料產業佔據了較大的份額,尤其是上游領域,基本上都是國外企業。國內IT企業相比而言,存在較大的差距。
大資料相關重點領域及企業(技術)
/09
大資料的挑戰
說了那麼多大資料的好話,並不代表大資料是完美的。
大資料也面臨著很多挑戰。
除了資料管理技術難度之外,大資料的最大挑戰,就是安全。
資料是資產,也是隱私。沒有人願意自己的隱私被暴露,所以,人們對自己的隱私保護越來越重視。政府也在不斷加強對公民隱私權的保護,出臺了很多法律。
歐盟在2018年出臺了有史以來最嚴厲的GDPR(《一般資料保護法案》),把網路資料保護上升到前所未有的高度
在這種情況下,企業獲取使用者資料,就需要慎重考慮,是否符合倫理和法律。一旦違法,將付出極為沉重的代價。
此外,即使企業合法獲取資料,也要擔心是否會被惡意攻擊和竊取。這裡面的風險也是不容忽視的。
除了安全之外,大資料還要面臨能耗等方面的問題。
換言之,如果不能很好地保護和利用手裡的大資料,那麼它就是一個燙手的山芋,有還不如沒有。
好啦,洋洋灑灑寫了這麼多,相信大家已經對大資料有了初步的瞭解。
回覆列表
1、人們在網際網路產生上的,以及可以被網際網路檢測到的所有行為資料
2、平臺運營、廣告推薦、業務規劃、歷史記錄。幾乎可以用來指導人們的所有決策