自然語言處理(NLP)是指機器理解並解釋人類寫作、說話方式的能力。NLP 的目標是讓計算機/機器在理解語言上像人類一樣智慧。最終目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距。有了 NLP,有可能完成自動語音、自動文字編寫這樣的任務。由於大型資料(文字)的存在,我們可以使用計算機的能力,不知疲倦地執行演算法來完成這樣的任務,花費的時間也更少。這些任務包括 NLP 的其他應用,比如自動摘要(生成給定文字的總結)和機器翻譯。
NLP 的機制涉及兩個流程:自然語言理解(NLU)和自然語言生成(NLG)。
自然語言理解(NLU)
NLU 是要理解給定文字的含義。文字內每個單詞的特性與結構需要被理解。在理解結構上,NLU 要理解自然語言中的以下幾個歧義性:
接下來,透過使用詞彙和語法規則,理解每個單詞的含義。然而,有些詞有類似的含義(同義詞),有些詞有多重含義(多義詞)。
自然語言理解(NLU)的具體應用有:文字分類、自動摘要、機器翻譯、對話系統、自動回答、閱讀理解等。
自然語言生成(NLG)
NLG 是從結構化資料中以可讀地方式自動生成文字的過程。它可被分為三個階段:
1. 文字規劃:完成結構化資料中基礎內容的規劃。
2. 語句規劃:從結構化資料中組合語句,來表達資訊流。
3. 實現:產生語法通順的語句來表達文字。
自然語言生成(NLG)的主要應用有:自動寫詩、論文寫作、報告生成、新聞寫作、專利寫作、百科寫作等。
以上。你認為相比於NLU,NLG顯得不那麼重要的原因可能是出於如下一個對比,也是如今NLP領域的一個現狀:即如火如荼突飛猛進的機器翻譯(NLP)的風頭壓過了似乎止步不前的NLG,比如NLU最近又取得重大進展,Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍;在此之前,谷歌在機器翻譯方面也不斷取得新突破: 谷歌翻譯整合神經網路:機器翻譯實現顛覆性突破和谷歌神經機器翻譯再突破:實現高質量多語言翻譯和 zero-shot 翻譯。而於此同時,NLG卻進展甚微,這一方面是由於目前的NLG多使用模版,靈活性較差,缺少泛化能力;另一方面NLG雖然也使用神經網路,但目前技術較不成熟,雖然有一定的泛化能力,但是魯棒性欠佳。
我想,NLU與NLG的關係恰如有監督學習和無監督學習。雖然目前有監督學習進展大,成果豐碩,但是依然沒有放棄收效不大的無監督學習,因為我們知道無監督學習才是人工智慧的未來。同樣,NLG雖然難,但是我們依然不能放棄,NLU與NLG恰如NLP的兩條腿,要走路,少了那個都不行。
自然語言處理(NLP)是指機器理解並解釋人類寫作、說話方式的能力。NLP 的目標是讓計算機/機器在理解語言上像人類一樣智慧。最終目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距。有了 NLP,有可能完成自動語音、自動文字編寫這樣的任務。由於大型資料(文字)的存在,我們可以使用計算機的能力,不知疲倦地執行演算法來完成這樣的任務,花費的時間也更少。這些任務包括 NLP 的其他應用,比如自動摘要(生成給定文字的總結)和機器翻譯。
NLP 的機制涉及兩個流程:自然語言理解(NLU)和自然語言生成(NLG)。
自然語言理解(NLU)
NLU 是要理解給定文字的含義。文字內每個單詞的特性與結構需要被理解。在理解結構上,NLU 要理解自然語言中的以下幾個歧義性:
詞法歧義性:單詞有多重含義句法歧義性:語句有多重解析樹語義歧義性:句子有多重含義回指歧義性(Anaphoric Ambiguity):之前提到的短語或單詞在後面句子中有不同的含義。接下來,透過使用詞彙和語法規則,理解每個單詞的含義。然而,有些詞有類似的含義(同義詞),有些詞有多重含義(多義詞)。
自然語言理解(NLU)的具體應用有:文字分類、自動摘要、機器翻譯、對話系統、自動回答、閱讀理解等。
自然語言生成(NLG)
NLG 是從結構化資料中以可讀地方式自動生成文字的過程。它可被分為三個階段:
1. 文字規劃:完成結構化資料中基礎內容的規劃。
2. 語句規劃:從結構化資料中組合語句,來表達資訊流。
3. 實現:產生語法通順的語句來表達文字。
自然語言生成(NLG)的主要應用有:自動寫詩、論文寫作、報告生成、新聞寫作、專利寫作、百科寫作等。
以上。你認為相比於NLU,NLG顯得不那麼重要的原因可能是出於如下一個對比,也是如今NLP領域的一個現狀:即如火如荼突飛猛進的機器翻譯(NLP)的風頭壓過了似乎止步不前的NLG,比如NLU最近又取得重大進展,Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍;在此之前,谷歌在機器翻譯方面也不斷取得新突破: 谷歌翻譯整合神經網路:機器翻譯實現顛覆性突破和谷歌神經機器翻譯再突破:實現高質量多語言翻譯和 zero-shot 翻譯。而於此同時,NLG卻進展甚微,這一方面是由於目前的NLG多使用模版,靈活性較差,缺少泛化能力;另一方面NLG雖然也使用神經網路,但目前技術較不成熟,雖然有一定的泛化能力,但是魯棒性欠佳。
我想,NLU與NLG的關係恰如有監督學習和無監督學習。雖然目前有監督學習進展大,成果豐碩,但是依然沒有放棄收效不大的無監督學習,因為我們知道無監督學習才是人工智慧的未來。同樣,NLG雖然難,但是我們依然不能放棄,NLU與NLG恰如NLP的兩條腿,要走路,少了那個都不行。