首頁>Club>
7
回覆列表
  • 1 # HelloNLP

    目前,NLP的主要研究範圍與方向有以下幾個方面:

    1、資訊檢索

    2、機器翻譯

    3、文件分類

    4、問答系統

    5、資訊過濾

    6、自動文摘

    7、資訊抽取

    8、文字挖掘

    9、輿情分析

    10、機器寫作

    11、文字朗讀

    12、語音合成

    13、語音識別

    14、自動分詞

    15、詞性標註

    16、句法分析

    17、自然語言生成

    18、資訊抽取

    另外,自然語言處理的資料為文字資料,主要有以下5種類型的處理:

    1、分詞:

    我們一般處理的自由文字有中文、英文等,詞為文字的基本單位,然而分詞當然是NLP中最重要的步驟。分詞演算法分為詞典方法和統計方法,其中基於詞典和人工規則的方法是按照一定的策略將待分析的詞與詞典中的詞條進行匹配(包括正向匹配、逆向匹配和最大匹配)。統計方法是基本字串在語料庫中出現的統計頻率,典型的演算法有HMM、CRF等,其中CRF相比HMM有更弱的上下文無相關性假設,理論上效果更好一些。

    英文以空格為分割符,因此不需要進行分詞的操作(片面看法,特殊情況仍然需要分詞操作),例如一些複合詞也需要識別。

    2、詞性標註

    對於詞性標註,首先需要定義詞性的類別:如名詞、動詞、形容詞、連詞、副詞、標點符號等等。詞性標註是語音識別、句法分析、資訊抽取技術的基礎技術之一,詞性標註是標註問題,可以採用最大熵、HMM、CRF等具體演算法進行模型的訓練。在自動問答系統中,為了提高使用者問題匹配後端知識庫的召回率,對一些關鍵詞進行過濾,包括連詞、副詞對於全文檢索系統理論上可以透過對使用者輸入的查詢條件進行詞性過濾,但由於全文檢索是基於詞袋的機械匹配,並採用IDF作為特徵值之一,因此詞性標註的效果不大。

    3、句法分析

    句法分析的目的是確定句子的句法結構,主謂賓、動賓、定中、動補等。在問答系統和資訊檢索領域有重要作用。

    4、命名實體識別

    命名實體識別是定位句子中出現的人名、地名、機構名、專有名詞等。命名實體屬於標註問題,因此可以採用HMM、CRF等進行模型的訓練。基於統計的命名實體需要基於分詞、詞性標註等技術。實體命名定義了五大型別:設施(FAC)、地理政治實體(GPE)、位值(LOC)、人物(PER)。在實際應用中,可以根據自己的業務需求,定義實體類別,並進行模型訓練。

    5、實體關係抽取

    實體關係抽取是自動識別非結構化文件中兩個實體之間的關聯關係,屬於資訊抽取領域的基礎知識之一。近年來,搜尋領域流行的知識圖譜技術是構建實體關係。實體關係抽取有多種方式,包括規則匹配、有監督學習、無監督學習。其中有監督學習需要預先定義實體關係類別,通常將問題建模為分類問題。有監督學習需要預先人工標註語料庫。

  • 中秋節和大豐收的關聯?
  • 昔人已乘黃鶴去此地空餘黃鶴樓抒發了怎樣的感慨?