回覆列表
  • 1 # 段水流大師兄

    傳統的NLP包含:

    1. 分詞

    在書寫中,英語的詞與詞之間有空格進行天然分詞,而漢語卻不同,同一個詞,在不同的句子中有不同的形態,舉個例子:

    a. 她憑自己的才能得到了這份工作。

    b. 你這樣的人才能夠留下來,是我們的幸運。

    a句中的“才能”明顯是一個詞,而b句中的“人才”和“能夠”卻應該分開。在訓練分詞模型的過程中,針對固定詞表進行“一刀切”顯然不可取。這時就需要一些語言學的知識來幫助模型達到更好的準確率。 就以上這個問題:“的”是定語的標誌,當“才能”緊跟“的”字時,前者作為一個詞的機率非常大。

    2. 詞性標註

    詞性標註(Part-of-speech Tagging, POS)是給句子中每個詞一個詞性類別的任務。 這裡的詞性類別可能是名詞、動詞、形容詞或其他。 詞性標註也以傳統語法理論為基礎,與分詞相輔相成,是非常基本的自然語言處理手段,可以幫助機器進行消歧、新詞識別、句法分析、資訊抽取等任務。例如:

    3. 句法分析(Syntax Parse)

    句子層次分析法,也就是語言學學生常常掛在嘴邊的那棵 “樹”。句法樹其實是對句子成分與成分之間結構化的解析。在自然語言處理的過程中,句法樹可以幫助簡化句子,抽取句子主幹,替換句子成分等。

    舉個例子,自我糾錯(self-correction)是在口語中常出現的一種情況,比如:

    八點叫我起床,不,九點叫我吧。

    句法樹下呈現出的句法一目瞭然,只要對結構相同的部分進行替換,就可以使機器識別到說話人的真正意思。

    除此之外,命名實體識別文字摘要等均屬於NLP範疇,在此就不鋪開講了。以上提到的絕大多數內容,無論是分詞模型、句法樹模型,等等,均需要大量高質量的標註資料來進行模型訓練,而根據語言學規則來對訓練語料進行標註是必不可少的。

    再來談談NLU,傳統的NLP基本上都是在做“處理”的工作,是把人類的語言掰開揉碎,而NLU則解決更深層的“理解”問題,即如何消化NLP已經處理好的東西,真正讓機器明白人類語言的語義(semantic)。

    1. 語義角色標註 (Semantic Role Labeling)

    語義角色標註背後的理論基礎則是格語法。說到格語法,就不得不先提到喬姆斯基老爺子(Chomsky),老爺子的轉換生成語法是根據其短語結構規則(S → NP + VP;V + NP)生成所有的句子。結果,生成所有句子的目標雖然達到了,但是在生成正確句子("我喝果汁")的同時,也生成出錯誤的句子(“果汁喝我”)。這說明動詞和名詞之間要有一種語義限制。為了避免錯句的產生,就應該對規則進行一些詞彙、語義方面的限制。如:其前面的名詞一般是人,至少是有生命的;其後面的名詞是液體甚至是飲料。這就是喬姆斯基的學生菲爾默提出的“格語法”。

    最初的格語法只有六大類:

    (1)施事格,(2)承受格,(3)工具格,(4)使成格,(5)方位格,(6)客體格

    隨著應用領域增加,語義角色也隨之擴充,在不同的領域也進化出了不同的“格”。舉例來說:

    a. 我昨天在肯德基花了60元。

    b. 我昨天吃肯德基花了60元。

    同樣的詞彙因為所支配的動詞不同,可能充當的語義角色也不同。A句中的肯德基是地點格,B句中的肯德基是承受格。

    對語義角色的正確理解和標註,是機器問答、資訊理解和抽取、上下文資訊關聯的重要步驟之一,同時也對自然語言生成提供約束規則。

    同格語法類似的還有RRG(Role Reference Grammar),這裡不再贅述。

    2. 言語行為

    言語行為屬於交際語言學範疇,旨在研究在交際對話中的語言使用策略。交際過程中的言語,常常分為言內之意言後之意。舉例來說,“ do you mind closing the door?” 並不是在問你是不是“mind”,而是在請你關上門。對於機器來說,此時做出相應的反應要比傻傻地回答“No, I don"t”智慧得多。

    未來方向:

    傳統語言學已經可以幫助人工智慧解決一部分初級問題,但卻還遠遠不能cover千變萬化的語言形式。

    機器可以理解“我心情不好”,卻難以理解“我的心淅瀝瀝下著小雨”這樣的轉喻;機器可以理解“我要吃飯”,卻難以體會同樣是吃飯,“上飯店”和“下館子”,這一“上”一“下”間表達的心理上的微妙差異。

    自然語言生成(Natural Language Generation) 已經不是新鮮事,但基於大量語料訓練下的機器學習,學到的是大機率下最可能的說法,因而生成的語言常常令人感到乏善可陳。我們願意同一個人聊天併產生親密感,並不是因為他說出跟別人一模一樣的話,而恰恰是因為他反其道而行之,說出與眾不同的見解,讓聊天產生火花。

    而人工智慧的發展,需將認知語言學、心理語言學、社會語言學的研究成果運用到人機對話的設計中,使機器理解“寒暄”、“安撫”甚至是“諷刺”、“幽默”這樣的言語修辭行為。如竹間智慧結合認知科學構建的類腦對話系統,在深度學習方法中結合對語言學和心理學的研究,在語義理解的基礎上增加意圖識別和情感判斷,以彌補傳統中文NLP在語言理解上的不足,讓機器真正讀懂人類語言的複雜語義,以及背後的意圖和情感,然後給予使用者擬人的反饋,從而達到更好的人機自然語言互動效果。

    同樣,人工智慧也必將改變語言學研究的發展方向。傳統的重理論分析而輕例項,坐著想句子的研究方法將逐漸退出舞臺;真實語料、口語和書面語並重,側重對語言形態進行統計分析的研究將大量湧現。另外,傳統語言學將進一步向計算語言學靠攏,未來將會有新的、更容易被計算機接受的語法提出。

  • 中秋節和大豐收的關聯?
  • 你為什麼抽菸,你戒了嗎?