本篇文章解釋了資料、資訊、知識、智慧的「資料金字塔」,並列出了知識型經濟所需要的技術列表。
過去的一年裡,疫情讓社會生活方方面面都受到了重挫,但也帶來了一些有趣的副作用:倒逼企業數字化轉型。
正如微軟CEO薩蒂亞·納德拉(Satya Nadella),「新冠疫情在數月內促進了企業的數字化轉型。」
那些提前佈局數字化的公司在疫情期間看到了收益,其他公司也在使用各種數字化工具,影片通話、遠端辦公、雲計算、機器學習等得到了更多的應用。
但不管企業處於哪個階段,隨著數字化轉型的加速,所有業務活動中越來越多的部分都在以資料的形式留下了足跡。每個員工、客戶、供應商的動態,每個線索、資訊位和過程都將以數字化的方式進行或記錄。
反過來,這意味著從理論上講,我們從資料中獲得的應該不僅僅是對現狀的洞察,還應該從資料到資訊、從資訊到知識。
在不久的將來,企業將是由資料驅動的,經濟將是基於知識的。以下是知識型經濟所需要的技術列表:
一 資料金字塔:從資料到知識
從1946年第一臺計算機誕生,幾十年IT技術的迅速發展下,人類從資料稀缺進入了資料爆炸時代,但我們一直沒有解決的問題是,「如何將資料、資訊轉化為知識,擴大人類的理性,輔助決策?」
資料、資訊、知識,加上最高層級的智慧,四者之間的關係可以用「資料金字塔」來表示。這個金字塔一直以來都是資訊科學語言的一部分,在基於知識的新數字世界中,對資料進行編碼,利用商業、運營知識是取得進步和保持競爭力的關鍵。
資料金字塔:資料、資訊、知識和智慧之間的關係表示
那麼,我們如何從資料到資訊,從資訊到知識呢?首先要解釋三者的區別。
資料就是數字或字元,是原始或無組織形式的事實的集合,沒有上下文,也沒有意義。例如,「18122020」只是一個數字序列。但是,如果我們將此序列定義為DDMMYYY格式的日期,則可以將其解釋為2020年12月18日。在此附加上下文中,數字具有含義。
資訊是為了特定目的而以一種更容易測量、視覺化和分析的方式處理的資料。例如,我們可以透過公開各種看似完全不同的資料點和斷開連線的資料點之間的關係的方式來組織資料。根據每天休市時的資料建立特定時間段內資料點的圖表來分析道瓊斯指數的表現。
知識是經過某種方式處理、構造、應用或付諸實踐的資訊。例如,透過捕獲和表達與我們的資料點相關的關係的含義,我們可以自動化地洞察,並提取新知識。語義關係的知識圖譜可以幫助解釋某些股票如何影響道瓊斯指數,以及不同的事件如何影響它們的價格。
向資料新增上下文會將其轉變為資訊,處理資訊可以將其轉變為知識,這些轉換的關鍵是「連線」和「元資料」。
提到資料處理,大部分人想到的是深度學習。如今透過深度學習,我們可以透過找到資料背後的規律,並作出預測。
但深度學習並不是唯一的資料處理方式,本篇文章嘗試從一個不同的視角來分析,關注一個特定的資料結構:圖。
二 圖分析
圖論的歷史與一個看似完全毫無聯絡的問題有關,「透過柯尼斯堡(Königsberg)許多橋樑的最佳方式是什麼?」1736年,瑞士數學家和物理學家萊昂哈德·尤拉(Leonhard Euler)建立了一個模型解決了這個問題,該模型就是圖論的基礎。
尤拉的做法是將「橋」和「連線橋的路徑」建模為圖中的「節點」和「邊」,然後形式化節點和邊的關係,這就構成了許多圖形演算法的基礎。
在基於知識的新數字世界中,對資料進行編碼和將資料與業務知識結合是取得進步並保持競爭力的關鍵。
最著名的圖形演算法可能是PageRank ——谷歌帝國的基礎。PageRank將網路上的文件建模為圖形,並使用它們之間的連結來得出特定查詢的相關性。
從18世紀到今天,科學家們已經開發了許多圖形演算法,其主要類別包括路徑查詢、中心性、社群檢測、相似性是圖演算法的主要類別,這些演算法在資料分析中有很多應用。
從eBay到NASA,再到調查記者和獨立資料科學家,圖分析都有大量的應用,包括欺詐檢測、網路分析、自然語言處理等。2019年,分析公司Gartner就預測過,「圖分析將在未來幾年內增長,因為人們需要在複雜的資料中提出複雜的問題。」
三 圖資料庫
前文提到,將資料轉換成資訊的關鍵是「連線」和「元資料」。圖是利用連線的最佳方法,而圖資料庫則可以使表達和連線查詢變得更容易。
這就是為什麼圖資料庫非常適合那些需要利用資料連線(反欺詐、預測性建議)案例的原因。從操作應用到分析,從資料整合到機器學習,圖都有優勢。
但圖和圖資料庫之間並不一樣。圖分析可以在任何後端執行,它們僅需要讀取圖形形狀的資料。而圖形資料庫是一種能夠完全支援讀和寫的資料庫,利用了圖形資料模型、API和查詢語言。
圖資料庫其實已經存在很長時間了,但到2017年才收到廣泛關注,當時AWS和微軟分別使用Neptune和Cosmos DB將圖資料庫暴露給更廣泛的受眾。自那時以來,圖資料庫就成了資料管理中最熱門的領域。
「到2022年,圖形處理和圖形DBMS的應用將以每年100%的速度增長,以不斷加速資料準備並實現更復雜和適應性更強的資料科學。圖形資料儲存區可以跨資料孤島有效地建模,探索和查詢具有複雜相互關係的資料。」Gartner在《2019年十大資料和分析技術趨勢》報告中表示。
四 知識圖譜
連線資料孤島是知識管理的前提,而知識圖譜擅長於此。知識圖譜是圖的特定子類,也稱為語義圖。它們自帶元資料、模式、全域性識別符號和推理能力,這使得它們成為捕捉和管理知識的理想選擇。
很多人將知識圖譜作為一項新技術,但實際上知識圖譜已經存在了至少20年,其發明者正式全球資訊網發明者蒂姆·伯納斯·李(Tim Berners-Lee)。
2001年蒂姆·伯納斯發表語義網宣言( Semantic Web manifesto),儘管其中提到的原則和技術一直有爭議,但它仍然成為知識圖譜復興的幕後推手。
Gartner將知識圖譜納入2020年人工智慧技術成熟度曲線報告,並將其作為處於高峰的新技術熱點
谷歌的PageRank也在圖及知識圖譜的興起中扮演重要角色。儘管PageRank取得了成功,但如果沒有語義和元資料,網路上內容的抓取和分類同樣是一個難解決的問題。因此,谷歌接受了語義技術,並在2012年創造了術語「知識圖」。
schema.org的廣泛採用標誌著圖技術和知識圖譜迅速崛起的開始。知識圖可以解決資料治理和資料整合等關鍵挑戰。
最終,知識圖譜可以作為數字載體,可以將知識獲取和組織的理念與數字時代的資料管理實踐統一起來。
五 圖、AI和自然語言處理
如果你認為知識圖譜是捕捉和管理知識的終極目標,那你就錯了。知識圖譜擅長以自上而下的方式明確地捕捉知識。這也是Gartner將知識圖譜列入2020年人工智慧成熟度曲線報告的原因。
圖與機器學習有什麼關係?實際上很多。這是雙向的。機器學習可以幫助引導和填充知識圖譜。圖形中包含的資訊可以提升機器學習方法的效率。
機器學習及其深度學習子領域,與圖形非常匹配。在圖上的機器學習仍然是一項新興的技術,但卻是一項充滿希望的技術。亞馬遜、阿里巴巴、蘋果、Facebook和Twitter只在一些生產中使用這項技術。在頂級人工智慧會議上發表的研究報告中,有超過25%與圖有關。
最後,根據Facebook人工智慧研究員Fabio Petroni的說法,圖可能不是獲取知識的最佳方式。「我們已經發明瞭表示知識的最佳方式——文字。隨著自然語言處理(NLP)的最新進展,我們現在有了機器,可以檢索上下文的片段,在此基礎上進行推理,並解決知識密集型任務,而不需要使用知識庫,只需要使用文字和理解文字即可。」