隨著社會的日益資訊化,人們越來越強烈地希望用自然語言同計算機交流。 自然語言理解是計算機科學中的一個引人入勝的、富有挑戰性的課題。從計算機 科學特別是從人工智慧的觀點看,自然語言理解的任務是建立一種計算機模型, 這種計算機模型能夠給出象人那樣理解、分析並回答自然語言(即人們日常使用 的各種通俗語言)的結果。現在的計算機的智慧還遠遠沒有達到能夠象人一樣理解自然語言的水平,而 且在可預見的將來也達不到這樣的水平。因此,關於計算機對自然語言的理解一 般是從實用的角度進行評判的。如果計算機實現了人機會話,或機器翻譯,或自 動文摘等語言資訊處理功能,則認為計算機具備了自然語言理解的能力。第一部分了解自然語言理解技術自然語言處理就是研究如何能讓計算機理解並生***們日常所使用的(如漢 語、英語)語言,使得計算機懂得自然語言的含義,並對人給計算機提出的問題, 透過對話的方式,用自然語言進行回答。目的在於建立起一種人與機器之間的密 切而友好的關係,使之能進行高度的資訊傳遞與認知活動。自然語言理解系統可 以用作專家系統、知識工程、情報檢索、辦公室自動化的自然語言人機介面,有 很大的實用價值。自然語言處理研究在電子計算機問世之初就開始了,並於50年代初開展了 機器翻譯試驗。當時的研究方法還不能稱作帶有""智慧到了 60年代喬姆斯基 的轉換生成語法得到廣泛的認可,生成語法的核心是短語結構規則,分析句子結 構的過程就是利用規則自頂向下或自底向上的句法樹生成過程。由於認識到生成語法缺少表示語義知識的手段,在70年代隨著認知科學的 興盛,研究者又相繼提出了語義網路、CD理論、格框架等語義表示理論。這些 語法和語義理論經過各自的發展,逐漸開始趨於相互結合。到80年代一批新的 語法理論脫穎而出,具有代表性的有詞彙功能語法(LFG)、功能合一語法(FUG) 和廣義短語結構語法(GPSG)等。這些基於規則的分析方法可以稱之為自然語言處理中的"理性主義"。現有的手段雖然基本上掌握了單個句子的分析技術,但是還很難覆蓋全面的語言現象, 特別是對於整個段落或篇章的理解還無從下手。與""理性主義"相對的是"經驗主義”的研究思路,主要是指標對大規模語料庫 的研究。語料庫是大量文字的集合。計算機出現後,語料可以被方便地存貯起來, 利用計算機查詢也很容易。隨著電子出版物的出現,採集語料也不再成為困難。 最早於60年代編制的Brown和LOB兩個計算機語料庫,分別具有100萬詞次的 規模。進入90年代可以輕易列舉出的語料庫有幾十個之多,象DCI、ECI、ICAME、 BNC、LDC、CLR等,其規模最高達到109數量級。對語料庫的研究分成3個方面:工具軟體的開發、語料庫的標註、基於語料 庫的語言分析方法。採集到以後未經處理的生語料不能直接提供有關語言的各種 知識,只有透過詞法、句法、語義等多層次的加工才能使知識獲取成為可能。加 工的方式就是在語料中標註各種記號,標註的內容包括每個詞的詞性、語義項、 短語結構、句型和句間關係等。隨著標註程度的加深語料庫逐漸熟化,成為一個 分佈的、統計意義上的知識源。利用這個知識源可以進行許多語言分析工作,如 根據從已標註語料中總結出的頻度規律可以給新文字逐詞標註詞性,劃分句子成 分等。語料庫提供的知識是用統計強度表示的,而不是確定性的,隨著規模的擴大, 旨在覆蓋全面的語言現象。但是對於語言中基本的確定性的規則仍然用統計強度 的大小去判斷,這與人們的常識相違背。這種"經驗主義”研究中的不足要靠"理 性主義”的方法來彌補。兩類方法的融合也正是當前自然語言處理發展的趨勢。自然語言理解系統的發展階段自然語言理解系統的發展可以分為第一代系統和第二代系統兩個階段。第一 代系統建立在對詞類和詞序分析的基礎之上,分析中經常使用統計方法;第二代 系統則開始引進語義甚至語用和語境的因素,幾乎完全拋開了統計技術。第一代自然語言理解系統又可分為四種類型:(1)特殊格式系統早期的自然語言理解系統大多數是特殊格式系統,根據人機對話內容的特點,採用特殊的格式來進行人機對話。1963年,林德賽(R. Lindsay)在美國卡內基技 術學院用IPL-V表處理語言設計了 SAD-SAM系統,就採用了特殊格式來進行關 於親屬關係方面的人機對話,系統內建立了一個關於親屬關係的資料庫,可接收 關於親屬關係方面的問題的英語句子提問,用英語作出回答。1968年,波布洛 (D. Bobrow)在美國麻省理工學院設計了 STUDENT系統,這個系統把高中代數應
隨著社會的日益資訊化,人們越來越強烈地希望用自然語言同計算機交流。 自然語言理解是計算機科學中的一個引人入勝的、富有挑戰性的課題。從計算機 科學特別是從人工智慧的觀點看,自然語言理解的任務是建立一種計算機模型, 這種計算機模型能夠給出象人那樣理解、分析並回答自然語言(即人們日常使用 的各種通俗語言)的結果。現在的計算機的智慧還遠遠沒有達到能夠象人一樣理解自然語言的水平,而 且在可預見的將來也達不到這樣的水平。因此,關於計算機對自然語言的理解一 般是從實用的角度進行評判的。如果計算機實現了人機會話,或機器翻譯,或自 動文摘等語言資訊處理功能,則認為計算機具備了自然語言理解的能力。第一部分了解自然語言理解技術自然語言處理就是研究如何能讓計算機理解並生***們日常所使用的(如漢 語、英語)語言,使得計算機懂得自然語言的含義,並對人給計算機提出的問題, 透過對話的方式,用自然語言進行回答。目的在於建立起一種人與機器之間的密 切而友好的關係,使之能進行高度的資訊傳遞與認知活動。自然語言理解系統可 以用作專家系統、知識工程、情報檢索、辦公室自動化的自然語言人機介面,有 很大的實用價值。自然語言處理研究在電子計算機問世之初就開始了,並於50年代初開展了 機器翻譯試驗。當時的研究方法還不能稱作帶有""智慧到了 60年代喬姆斯基 的轉換生成語法得到廣泛的認可,生成語法的核心是短語結構規則,分析句子結 構的過程就是利用規則自頂向下或自底向上的句法樹生成過程。由於認識到生成語法缺少表示語義知識的手段,在70年代隨著認知科學的 興盛,研究者又相繼提出了語義網路、CD理論、格框架等語義表示理論。這些 語法和語義理論經過各自的發展,逐漸開始趨於相互結合。到80年代一批新的 語法理論脫穎而出,具有代表性的有詞彙功能語法(LFG)、功能合一語法(FUG) 和廣義短語結構語法(GPSG)等。這些基於規則的分析方法可以稱之為自然語言處理中的"理性主義"。現有的手段雖然基本上掌握了單個句子的分析技術,但是還很難覆蓋全面的語言現象, 特別是對於整個段落或篇章的理解還無從下手。與""理性主義"相對的是"經驗主義”的研究思路,主要是指標對大規模語料庫 的研究。語料庫是大量文字的集合。計算機出現後,語料可以被方便地存貯起來, 利用計算機查詢也很容易。隨著電子出版物的出現,採集語料也不再成為困難。 最早於60年代編制的Brown和LOB兩個計算機語料庫,分別具有100萬詞次的 規模。進入90年代可以輕易列舉出的語料庫有幾十個之多,象DCI、ECI、ICAME、 BNC、LDC、CLR等,其規模最高達到109數量級。對語料庫的研究分成3個方面:工具軟體的開發、語料庫的標註、基於語料 庫的語言分析方法。採集到以後未經處理的生語料不能直接提供有關語言的各種 知識,只有透過詞法、句法、語義等多層次的加工才能使知識獲取成為可能。加 工的方式就是在語料中標註各種記號,標註的內容包括每個詞的詞性、語義項、 短語結構、句型和句間關係等。隨著標註程度的加深語料庫逐漸熟化,成為一個 分佈的、統計意義上的知識源。利用這個知識源可以進行許多語言分析工作,如 根據從已標註語料中總結出的頻度規律可以給新文字逐詞標註詞性,劃分句子成 分等。語料庫提供的知識是用統計強度表示的,而不是確定性的,隨著規模的擴大, 旨在覆蓋全面的語言現象。但是對於語言中基本的確定性的規則仍然用統計強度 的大小去判斷,這與人們的常識相違背。這種"經驗主義”研究中的不足要靠"理 性主義”的方法來彌補。兩類方法的融合也正是當前自然語言處理發展的趨勢。自然語言理解系統的發展階段自然語言理解系統的發展可以分為第一代系統和第二代系統兩個階段。第一 代系統建立在對詞類和詞序分析的基礎之上,分析中經常使用統計方法;第二代 系統則開始引進語義甚至語用和語境的因素,幾乎完全拋開了統計技術。第一代自然語言理解系統又可分為四種類型:(1)特殊格式系統早期的自然語言理解系統大多數是特殊格式系統,根據人機對話內容的特點,採用特殊的格式來進行人機對話。1963年,林德賽(R. Lindsay)在美國卡內基技 術學院用IPL-V表處理語言設計了 SAD-SAM系統,就採用了特殊格式來進行關 於親屬關係方面的人機對話,系統內建立了一個關於親屬關係的資料庫,可接收 關於親屬關係方面的問題的英語句子提問,用英語作出回答。1968年,波布洛 (D. Bobrow)在美國麻省理工學院設計了 STUDENT系統,這個系統把高中代數應