首頁>科技>

研究大資料的意義

我們知道,宇宙萬物包括人類活動都可以用資料進行記錄,資料中必然有我們所需要的資訊和知識。無論的萬有引力、相對論的得出都可以歸結為是從資料分析中挖掘得出的。因此資料中隱藏的資訊和知識是客觀存在的,人類只要能夠挖掘出這些資料的規律就能獲得新的科學革命。

但是,在我們挖掘資料時,常常又會有很多幹擾項存在。

事實上我們日常活動和科學研究沒有本質的區別都是在做排除干擾因素的活動。這些干擾因素可以歸結為沒有意義的資料以及偽造的資料,與它相對應的是,有用的資料。這其中最危險的是偽造的資料,看過《三體》的人一定會清楚地記得,智子對人類科學的封鎖其本質就是加入了偽造的資料從而使得資料沒有任何規律性,進而得出物理學不存在了,因此我們大資料深層次的意義研究就是篩選有用的資料來為我們服務。

換句話說:人類的進步必然伴隨著資料處理能力的增強,人類想要從資料中獲取有用資訊越多,大資料應用的基礎就要越發達。由此我們也可以將更多的資料轉變為知識。所謂的知識其實是一個抽象概念,它的本質是人類對物質世界以及精神世界探索的結果總和,因此它具有系統性的特徵,而這種特性的證明和由來必須依靠有用的資料來支撐。

資料與大資料的區別

在計算科學之前,資料通常被人們所忽視,根本原因分為以下幾類

1、資料規模較小,資料和大資料最明顯的區別就是規模。一家企業的資料庫規模相對較小,規模較小的資料通常而言就很難具備代表性。

2、資料型別單一。傳統資料庫資料種類單一,往往僅僅有一種或少數幾種,這些資料又以結構化資料為主。單一資料往往難以對整個事物進行統籌的分析,可以簡單的理解就是引起事物變化的因素太多,而收集的資料型別太少,就無法有效的分析資料所代表其他意義。

3.模式和資料的關係,傳統的資料庫都是先有模式,然後才會產生資料。而大資料是先收集資料再根據資料的變化不斷調整模式,簡單來說,傳統資料的應變能力不足,資料的時效性也不足。

4.處理物件,傳統資料庫資料是其處理的物件。而大資料的處理物件除了是資料以外,還能透過這些資料去預測其他資料出現的可能性,將收集到的資料作為一種資源來輔助解決其他諸多領域的問題。

因此,我們可以得出,由於過去資料量不足,積累大量的資料所需要的時間太長,以至於在較短的時間裡它的作用不明顯。其次,資料和所想要獲得的資訊之間的聯絡通常是間接的,它要透過不同資料之間的相關性才能體現出來。可以說,相關性是讓資料發揮出作用的鑰匙。

舉例來說,想要控制疫情的蔓延,就需要知道哪裡的疫情的重災區,那麼有可能出現疫情。傳統模式下,首先要明確某個地區出現了某種病毒,收集整理這個感染的病人,然後處理研究這些病人最後得出需要隔離等一些列措施。但是這往往會導致災難的蔓延。大資料的處理方式,透過網際網路記錄下分析某個地區對於感冒、流感等藥物的增加、看病人數的暴增、以及當地人民重複搜尋某種病例的關鍵詞,由此就可以初步判斷該地區的可能出現疫情,再根據大資料這些指標的變化和趨勢分析直接加派醫療資源,尋找原因,尋找過程中也用大資料的演算法,從而能夠快速控制疫情的蔓延,並且還能根據周邊人員對這些指標的分析來判斷疫情的蔓延情況,沒有蔓延的絕對不可能出現上訴情況,這樣就能有效的控制疫情。

大資料對資料樣本的篩選——資料驅動法

透過資料建立起一個數學模型,以便在實際應用中使用。要建立數學模型就要解決兩個問題,首先是採用什麼樣的模型,其次是模型的引數是多少。模型的選擇不是一件容易的事情,通常簡單的模型未必和真實情況相匹配,從理論上講,只要找到足夠多的具有代表性的樣本(資料),就可以運用數學找到—個模型或者一組模型的組合,使得它和真實情況非常接近(這需要計算機)。舉例:蘇聯擁有大量數學功底非常深厚的設計人員,但是缺乏高效能的計算機和大量的資料,因此其科學家喜歡尋找比較準確但是複雜的數學模型;而美國的設計人員相比之下數學功底平平,但是美國的計算機擁有強大的計算能力和更多的資料,因此其科學家喜歡用很多簡單的模型來替代一個複雜的模型。這兩個國家做出的東西可謂各有千秋,但從結果來看,似乎美國的更勝一籌。

資料驅動法:採用多而簡單的模型常常比一個精確的模型成本更低,也被使用得更普遍。用若干個簡單的模型取代一個複雜的模型。這種方法被稱為資料驅動方法,因為它是先有大量的資料,而不是預設的模型,然後用很多簡單的模型去契合資料。(這種方法前提是樣本必須非常具有代表性),就是當我們對一個問題暫時不能用簡單而準確的方法解決時,我們可以根據以往的歷史資料,構造很多近似的模型來逼近真實情況,這實際上是用計算量和資料量來換取研究的時間。摩爾定律保證了計算能力和資料量以一個指數級增長的速度遞增,資料驅動方法可以非常準確。

如果我們把資本和機械動能作為大航海時代以來全球近代化的推動力,那麼資料將成為下一次技術革命和社會變革的核心動力。

大資料核心之一就是變智慧問題為資料問題。

什麼是機器智慧,圖靈測試可以判斷機械智慧。機器智慧分為傳統人工智慧(1.0)的方法和現代其他的方法(比如資料驅動、知識發現或者機器學習)。那麼傳統的人工智慧方法是什麼呢?簡單地講,就是首先了解人類是如何產生智慧的,然後讓計算機按照人的思路去做。機器智慧最重要的是能夠解決人腦所能解決的問題,而不在於是否需要採用和人一樣的方法。

一派堅持採用傳統的人工智慧方法解決問題,簡單來講就是模仿人,另一派在倡導資料驅動方法。

資料驅動法的典型突破案例——語音識別系統

賈里尼克認為,人的大腦是一個資訊源,從思考到找到合適的語句,再透過發音說出來,是一個編碼的過程,經過媒介(聲道、空氣或者電話線、揚聲器等)傳播到聽眾耳朵裡,是經過了一個長長的通道的資訊傳播問題,最後聽話人把它聽懂,是一個解碼的過程。既然是一個典型的通訊問題,就可以用解決通訊問題的方法來解決,為此賈里尼克用兩個數學模型(馬爾可夫模型)分別描述信源和通道。至於計算機識別時需要從語音中提取什麼特徵,賈里尼克的想法很簡單,數字通訊採用什麼特徵,語音識別就採用什麼特徵。這樣,賈里尼克就用當時已經頗為成熟的數字通訊的各種技術來實現語音識別,而徹底拋開了人工智慧的那一套做法。

大資料需要解決的問題

上面的例子是找到數學模型,數學模型之後,下一步就是要用統計的方法“訓練出”模型的引數,這在今天來講就是機器學習。在這個過程中,需要使用大量的資料,同時要有足夠的計算能力。

大資料特徵:大量、多樣性(多維度)、及時性、完備性、真實性(現實問卷通常是被動的往往不真實,搜尋往往是主動的真實)。

計算機自動問答研究領域,通常我們把問題歸結為7類:”是什麼”(What)、”什麼時候”(When)、”什麼地點”(Where)、”哪一個”(Which)、”是誰”(Who)、”為什麼”(Why)和”怎麼做”(How),其中後兩個難以回答(目前)。

將所有問題由智慧問題變成一個大資料的問題,理論上可以解決的,模型是

第一步,根據網頁確定哪些使用者在Google問過的複雜問題可以回答,而哪些回答不了。根據我們的研究發現,大約70%~80%的問題,在Google第一頁搜尋結果中都有答案。在Google、必應(Bing)或者百度問一個為什麼的問題,比如問”天為什麼是藍色的”或者”為什麼夏天比冬天熱”,然後開啟上述搜尋引擎給出的前10條搜尋對應的網頁,通常都能找到想要的答案。那麼如果我們把目標設定在只回答那些在網頁中存在答案的問題,我們其實就具備了大資料的完備性。

第二步,就是把問題和網頁中的每一句話一一匹配,挑出那些可能是答案的片段,至於怎麼挑,就要依靠機器學習了。

第三步,就是利用自然語言處理技術,把答案的片段合成為一個完整的段落。

7
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 線上教育如何實現裂變啟用?