我們迎來了大資料時代,大資料具有規模性、多樣性、快速性和真實性等特點。大資料正在改變我們的生活、工作和思考方式。在這樣的背景下,大資料對智慧服務的需求已經從單純的蒐集獲取資訊,轉變為自動化的知識提供服務,這也給知識工程提出了很多挑戰性的問題。我們梳理了
1.知識工程的42年發展歷程,總結知識工程的演進過程、技術進展以及為機器智慧所做的貢獻
第一階段從1950-1970年代的圖靈測試;第二階段,1970-1990年代的專家系統;第三階段1990-2000年代的Web1.0全球資訊網;第四階段,2000-2006年代 Web2.0 群體智慧;第五階段,2006年至今的知識圖譜。2006以後,對維基百科進行結構化,例如DBpedia、YAGO和Freebase等。Google的知識圖譜(knowledge graph)就是收購了Freebase之後產生的大規模知識圖譜。除了通用的大規模知識圖譜,各行各業也在建立行業和領域的知識圖譜和廣泛應用,包括語義搜尋、問答系統與聊天、大資料語義分析以及智慧知識服務等,更多知識圖譜的創新應用還有待開發。
2.知識工程與大資料機器學習的結合
隨著資訊科技進步和大資料時代的到來,大資料機器學習也得到快速發展,已經成功應用於語音識別、影象識別和機器翻譯等。目前的大資料機器學習能夠給予一些決策支援,但使用者不會滿足於只給推薦結果,使用者希望的習得的模型解釋給出的模型為何成功何時成功等。這就是可解釋的人工智慧,這就需要與人的認知進行結合。比如機器自動識別出一張圖片中的物體是貓,它還需要告訴我們為什麼判斷為貓,如應為貓有毛、有鬍鬚有爪子等毛的特徵,也就是告訴人們機器做決策的依據是什麼。由此可見,大資料深度學習學到的是事物底層特徵空間,人能理解的對應的是事物語義空間,這當中存在語義鴻溝,而知識圖譜可以用來彌合這個鴻溝。在大資料環境下,我們可以採用自動或者半自動方法利用大資料機器學習方法從大資料中獲得知識,由此建立大資料環境下智慧系統。
3.大資料環境下知識圖譜的研究和挑戰
當前知識驅動和資料驅動的人工智慧方法,以符號表示為代表的知識驅動方法表示的知識明確、可以舉一反三、進行解釋和推理。而大資料深度學習為代表的資料驅動方法可以進行感知和記憶,進行關聯計算,但是難以解釋其推理計算過程。因此兩種方法的融合為我們研究基於知識的智慧技術提供了契機。
同時,兩種方法的融合也帶來許多挑戰性問題。下面從組成知識工程生命週期的知識建模、知識獲取、知識儲存和計算、以及知識重用的四個階段看每個階段所面臨的挑戰。
①知識表示方面,主要是研究大資料知識表示的理論與方法,使知識既具有顯式的語義定義,又便於大資料環境下的知識計算與推理。②知識獲取與融合方面,主要研究知識獲取和語義關聯技術。目前符號表示的知識是稀疏的,如何在知識稀疏和大資料環境下研究知識引導的知識獲取方,獲得大規模和高精度的知識是我們面臨的挑戰。
③知識計算和推理方面,當前基於符號的推理雖然有一些很好的推理工具,但是大規模知識推理效率還很受約束。深度學習或機率的推理方法方便計算但是難以解釋。大資料環境下知識計算和推理需要研究深度學習和邏輯規則相結合的知識推理和演化方法,以提升新知識發現的能力。
④知識工程的最終目標是實現知識驅動的個性化智慧服務。以知識圖譜關聯和分析使用者行為,透過情景感知分析使用者需求,以提供不同形式的個性化服務如知識導航、語義搜尋和問答等。知識工程發展趨勢可以歸納為四個方面。
我們迎來了大資料時代,大資料具有規模性、多樣性、快速性和真實性等特點。大資料正在改變我們的生活、工作和思考方式。在這樣的背景下,大資料對智慧服務的需求已經從單純的蒐集獲取資訊,轉變為自動化的知識提供服務,這也給知識工程提出了很多挑戰性的問題。我們梳理了
1.知識工程的42年發展歷程,總結知識工程的演進過程、技術進展以及為機器智慧所做的貢獻
第一階段從1950-1970年代的圖靈測試;第二階段,1970-1990年代的專家系統;第三階段1990-2000年代的Web1.0全球資訊網;第四階段,2000-2006年代 Web2.0 群體智慧;第五階段,2006年至今的知識圖譜。2006以後,對維基百科進行結構化,例如DBpedia、YAGO和Freebase等。Google的知識圖譜(knowledge graph)就是收購了Freebase之後產生的大規模知識圖譜。除了通用的大規模知識圖譜,各行各業也在建立行業和領域的知識圖譜和廣泛應用,包括語義搜尋、問答系統與聊天、大資料語義分析以及智慧知識服務等,更多知識圖譜的創新應用還有待開發。
2.知識工程與大資料機器學習的結合
隨著資訊科技進步和大資料時代的到來,大資料機器學習也得到快速發展,已經成功應用於語音識別、影象識別和機器翻譯等。目前的大資料機器學習能夠給予一些決策支援,但使用者不會滿足於只給推薦結果,使用者希望的習得的模型解釋給出的模型為何成功何時成功等。這就是可解釋的人工智慧,這就需要與人的認知進行結合。比如機器自動識別出一張圖片中的物體是貓,它還需要告訴我們為什麼判斷為貓,如應為貓有毛、有鬍鬚有爪子等毛的特徵,也就是告訴人們機器做決策的依據是什麼。由此可見,大資料深度學習學到的是事物底層特徵空間,人能理解的對應的是事物語義空間,這當中存在語義鴻溝,而知識圖譜可以用來彌合這個鴻溝。在大資料環境下,我們可以採用自動或者半自動方法利用大資料機器學習方法從大資料中獲得知識,由此建立大資料環境下智慧系統。
3.大資料環境下知識圖譜的研究和挑戰
當前知識驅動和資料驅動的人工智慧方法,以符號表示為代表的知識驅動方法表示的知識明確、可以舉一反三、進行解釋和推理。而大資料深度學習為代表的資料驅動方法可以進行感知和記憶,進行關聯計算,但是難以解釋其推理計算過程。因此兩種方法的融合為我們研究基於知識的智慧技術提供了契機。
同時,兩種方法的融合也帶來許多挑戰性問題。下面從組成知識工程生命週期的知識建模、知識獲取、知識儲存和計算、以及知識重用的四個階段看每個階段所面臨的挑戰。
①知識表示方面,主要是研究大資料知識表示的理論與方法,使知識既具有顯式的語義定義,又便於大資料環境下的知識計算與推理。②知識獲取與融合方面,主要研究知識獲取和語義關聯技術。目前符號表示的知識是稀疏的,如何在知識稀疏和大資料環境下研究知識引導的知識獲取方,獲得大規模和高精度的知識是我們面臨的挑戰。
③知識計算和推理方面,當前基於符號的推理雖然有一些很好的推理工具,但是大規模知識推理效率還很受約束。深度學習或機率的推理方法方便計算但是難以解釋。大資料環境下知識計算和推理需要研究深度學習和邏輯規則相結合的知識推理和演化方法,以提升新知識發現的能力。
④知識工程的最終目標是實現知識驅動的個性化智慧服務。以知識圖譜關聯和分析使用者行為,透過情景感知分析使用者需求,以提供不同形式的個性化服務如知識導航、語義搜尋和問答等。知識工程發展趨勢可以歸納為四個方面。