首頁>科技>

今天準備寫一篇文章來談大資料,人工智慧和事物認知問題解決之間的關係邏輯。因此這篇文章不會談底層的實現技術,而更多的會談在整個資訊科技革命下思維邏輯的發展演進過程,並對相互之間的關係做進一步思考。

大資料概念和其發展

大資料這個概念在5,6年相當火,而最近幾年整體熱度下降得很明顯,類似的又出現了資料湖,資料中臺這些概念。但是資料中臺和資料湖,卻很難體現出大資料的一些關鍵特徵。

比如我們談大資料核心,一般都會談到其4V特徵。

資料量足夠大,PB級別以上

資料型別多樣化,結構化,非結構化

時效性要求高

價值創造,大資料最終實現價值

前面幾年大資料應用更多的是在做資料採集,整合,儲存方面的事情,但是對資料本身的應用和分析卻很少。大資料應用和分析做得好的可以看到重要是在電商行業,或者類似電信,金融等直接面對客戶的大集團行業,應用的點也更多在針對性營銷,推薦引擎,客戶畫像等方面。也就是說理想的應用場景很多,但是大量落地場景並不多。

很多企業建大資料平臺,投入大量資源,時間和成本,雖然完成了統一的資料採集和儲存,但是資料本身產生的價值並沒有體現出來。

類似當前資料中臺,實際也在談一點,大資料平臺不能是隻做OLAP分析,做分析決策,更多的要考慮資料能力實時開放,反哺業務,為業務服務。

當你構建了大資料平臺後,你會看到後續的資料運維,資料管控治理,資料分析均需要持續大量的人員投入,如果資料本身無法產生價值,那麼平臺最終被荒廢掉也是合理之選。

大資料和傳統BI

對於大部分企業來說,企業資訊化發展本身也有一個過程。

其前期的資料分析更多的還是圍繞結構化資料展開,這些資料採集集中後上PB級並不容易,同時也全部是結構化資料,這個時候傳統的BI系統構建思路仍然適用,唯一的就是資料量大後你可能需要轉到類似MPP分散式的資料分析庫上來解決效能問題。

如果你完全採用類似Hadoop來構建大資料技術平臺來解決上面這些問題,那麼實際上完全沒有必要,你會發現會引入更多的技術複雜度和業務建模複雜度。

為什麼這樣講?

對於傳統BI分析裡面的維度分析,上鑽下鑽,切片等基於維度建模型形成的分析能力,在Hadoop儲存和處理中並不合適。Hadoop在資料儲存擴充套件,分析SQL執行效率上有明顯提升,但是很多BI裡面並不需要實時查詢或即席查詢能力。

也就是說企業如果沒有這種資料實時分析結果反哺業務的需求,那麼你更加沒有必要馬上去搭建這種大資料平臺來解決你的問題。

相關性和因果關係

也就是大家熟知的啤酒和尿片的故事。

這個故事產生於20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售資料時發現了一個令人難於理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過後續調查發現,這種現象出現在年輕的父親身上。

如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。

認知邏輯-從機械思維到資訊理論

當今天重新回顧這個案例的時候,實際本身就是我們認知世界的方式在發生大的變化。

我們傳統思考方式就是機械思維,其中牛頓之一個很大的貢獻值,簡單來說就是自然界發生的各自現象事件,一定有其內在的規律和原因,同時這個原因我們可以用抽象的公式或模型來進行表達。

那麼當我們遇到同樣的現象的時候,就可以用公式去解題。

但是機械思維發展中出現兩個問題,即有些時候我們沒有辦法做到精確建模,這本身又有兩個原因,其一是對目標Y造成影響的X因子太多,無法窮舉和認知全;其二是我們的測量系統出現問題,簡單來說採集不全和測量不準。這些都對我們的確定性思維造成挑戰。

解決該問題本身又有兩種思路:

其一是機率和統計

其二是對資訊不確定性的量化表達-資訊理論和資訊熵(夏農)

而資訊理論則完全相反,建立在不確定性(假設)基礎上,要訊息不確定性就必須引入資訊。於是我們的思維邏輯發生了進一步變化,即從機械思維到大資料思維的轉變。

複雜時間很難找到確定性和因果關係-》因此用不確定性眼光看待世界-》把智慧問題轉化為消除不確定性的問題-》找到消除相應不確定性的資訊(或者說大量具有相關性的資料可以幫助我們消除這種不確定性)。

例如上面大資料的例子。

我們透過資料的相關分析,找到了啤酒與尿布搭配售賣的方法,但是我們並不清楚為何年輕父親會在購買尿片的時候順帶幾瓶啤酒。

在大資料時代,我們會產生一個錯覺,因果關係不再重要,重要的是大資料相關性分析。我們還是回到上面的例子來假設下可能的因果關係。

比如最多的調查結果可能是年輕父親購買尿片後,小孩換了新尿片可以快速地入睡,年輕父親這個時候才能夠有空閒時間進行消遣,能夠產生空閒時間消遣才是推動啤酒購買的關鍵原因。

當你瞭解清楚因果關係後,你會發現年輕的父親消遣的方式不只是喝啤酒,在家裡看電影或球賽,打遊戲,抽菸都可能是潛在的消遣方式。實際上你把香菸,口香糖,遊戲卡等和尿布放在一起也能夠達到同樣的暢銷結果。

簡單總結一句重要的話就是:

一件事情你只是理解相關性那麼只能是迎合或跟隨,而只有理解了相關性後面的因果關係你才可能破局或引領變革。

人工智慧和大資料

人工智慧,簡單來說就是計算機要模擬人的大腦來思考和解決問題。

可以看下百度百科對人工智慧的一些說明

人工智慧是研究使計算機來模擬人的某些思維過程和智慧行為(如學習、推理、思考、規劃等)的學科,主要包括計算機實現智慧的原理、製造類似於人腦智慧的計算機,使計算機能實現更高層次的應用。

人工智慧涉及到計算機科學、心理學、哲學和語言學等學科。可以說幾乎是自然科學和社會科學的所有學科,其範圍已遠遠超出了計算機科學的範疇,人工智慧與思維科學的關係是實踐和理論的關係,人工智慧是處於思維科學的技術應用層次,是它的一個應用分支。

從思維觀點看,人工智慧不僅限於邏輯思維,要考慮形象思維、靈感思維才能促進人工智慧的突破性的發展,數學常被認為是多種學科的基礎科學,數學也進入語言、思維領域,人工智慧學科也必須借用數學工具,數學不僅在標準邏輯、模糊數學等範圍發揮作用,數學進入人工智慧學科,它們將互相促進而更快地發展。

計算機具備了人的智慧能力。那麼人的智慧能力包括了識別,定義,歸納,抽象,推理,決策等多個方面的能力。

前面已經講到了思考解決問題的一種方式:

即問題輸入-》已有的演算法模型-》問題解決

在很早以前的人工智慧研究裡面,更多的就是想著去模仿人腦思考和推理的過程。透過提供不同的輸入方式讓計算機進行學習,產生一個演算法模型。然後對於新問題可以用模型去解決。類似人工神經網路,遺傳演算法等都是這個思路。但是當你提供的輸入不足夠多的時候,這個模型很難快速地收斂,也很難得出一個精確化的確定模型。

在大資料出現後,形成了計算機解決問題的新思路。

深度學習+大資料 = 人工智慧

即從傳統學習和建模推理思路轉移到基於統計學的思路,這個李開復確實在裡面做出了不小的貢獻。其次就是在統計學基礎上引入了深度學習的概念,而深度學習又依賴於海量大資料作為樣本輸入。

在李開復的《人工智慧》一本書裡面就談到深度學習+大資料引領了第三次AI浪潮。簡單來說就是你不需要去搞清楚人工神經網路這個精確模型是如何形成的?你只需要透過大量的樣本輸入去訓練這個模型,最終得到你需要的輸出。

簡單來說一個計算機能夠識別一隻動物圖片是貓,並不是計算機能夠精確地描述出來貓應該具備的體型特徵,而是圖片中的動物的特徵矩陣和資料庫裡面的動物貓最匹配而已。

對於谷歌的阿拉法狗戰勝李世石在17年也引起了轟動,再次展示了深度學習演算法和人工智慧的威力。對於人工智慧來講,計算機本身的CPU平行計算能力遠超人腦,主要有了合適的深度學習方法,計算機程式所發揮出來的人工智慧威力巨大。

也就是說在大資料時代推動了人工智慧的快速發展。

什麼才是真正的智慧?

當我們做IT系統或應用的時候,必須要搞清楚什麼才是真正的智慧或智慧。

計算機在解決問題的時候,實際上最簡單的就是類似公式計算或求解,這個可以發揮計算機的強大算力,完勝人類。

其次就是基於固有場景下制定規則的模式匹配。

我們可以舉一個智慧家庭裡面的例子來作為參考。

當進門監控到是男主人回來的時候,自動將空調溫度設定到24度並開啟窗簾。當監控到是女主人回來的時候,將空調設定到26度,並關閉窗簾。

這個就是典型的基於場景的規則設定並執行操作。

這種情況下計算機的能力是在類似人臉識別,語音識別方面,而不是在最終的決策執行上面。因為決策完全是基於預設的規則執行。

而真正的人工智慧應該是基於大量的資料採集和分析,自己形成了規則,並且後續基於規則進行執行相關操作。並不斷基於新資料的輸入不斷地調整和最佳化自己的規則。

類似完全意義上的自動駕駛,就是典型的人工智慧要攻克的場景,也就是說非固有模式,非提前給定規則下快速的解決問題並做出判斷。

要做到這點,你必須有大量的資料採集並進行快速的分析。沒有大資料底層技術,海量大資料的輸入,是無法做到智慧的。包括前面的AlphGo,如果沒有大量的歷史棋譜的輸入和訓練,電腦也是無法戰勝人類的。

電腦基於算力,採用統計學的思路找到了機器智慧化的新途徑。

但是正如我前面談到的,如果電腦並沒有理解清楚因果關係,那麼電腦就只能處於跟隨狀態而非引領狀態。類似圍棋也是一個道理,如果我們修改了圍棋的一些規則,同時不給AlphGo新的輸入訓練,那麼電腦同樣變成白痴。

人為何能夠戰勝電腦,裡面有一個重點就是不要放棄對因果和本源的探索。

資訊化->數字化->智慧化

在談數字化轉型的時候,實際上一直在談三個關鍵點:

連線:萬物互聯,解決人和人,人和物,物和物的連線問題

資料:連線後產生整合和協同,協同過程自然會產生資料

智慧:資料經過加工和提煉,形成智慧化分析應用

對於連線你可以看到首先是解決了最基本的業務協同問題。但是連線更加重要的作用是產生和沉澱資料。

傳統的連線更多的都是透過人來完成,透過人手工錄入電子表單等資料來完成。而在數字化階段必須解決連線的多樣性問題,資料產生多樣性問題,類似採用各種物聯網感測裝置,你會看到可以持續不斷,自動化的產生大量你需要的輸入。或者透過開會語音的記錄,影片記錄同樣產生更多你原來沒有關注的資料。

資料本身在萬物互聯階段才形成了數量和型別的巨大變化,產生了大資料。

在數字化時代必須又重提大資料。

這個大資料的積累需要產生兩個方面的作用,一個是直接應用到業務協同中,一個是真正提升智慧化和智慧化的能力。當前大部分企業仍然在第一階段,而要完全意義上的人工智慧仍然在探索。

對於企業資訊化領域同樣適用我前面的說法,即計算機能夠自動產生規則並應用規則,才是完整意義上的人工智慧。否則計算機只是既定規則的執行者而已。包括我們常說的大資料推薦引擎,是計算機基於已有的推薦演算法進行推薦,而不是大資料自己形成了推薦演算法,這才是關鍵的區別點。

類似我原來在智慧交通上舉的一個例子:

現在的智慧交通應用往往已經能夠很方面地進行整個大城市環境下的交通狀況監控併發布相應的道路狀況資訊。在GPS導航中往往也可以實時地看到相應的擁堵路況等資訊,從而方便駕駛者選擇新的路線。但是這仍然是一種事後分析和處理的機制,一個好的智慧導航和交通流誘導系統一定是基於大量的實時資料分析為每個車輛給出最好的導航路線,而不是在事後進行處理。對於智慧交通中的交通流分配和誘導等模型很複雜,而且面對大量的實時資料採集,根據模型進行實時分分析和計算,給出有價值的結果,這個在原有的資訊科技下確實很難解決。

所以要做到完全的智慧化或智慧化並不是一件容易的事情。

真正的智慧一定是面對新事物都能夠自我學習,自我適應調整,自我最佳化的。而不是基於預設的規則。只要規則是人在預設,只要我們還始終保持對事物因果關係和本源的探索,那麼在短期計算機就不可能做到完全替代人類。

模型的建立還是人,但是應用模型或規則,基於採集整合的大資料進行快速的分析決策是機器的強項,這才是是數字化轉型第一階段重點去解決的智慧化問題。

4
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 我們小賣家如何在亞馬遜平臺獲得更快的成長?