回覆列表
  • 1 # Alice機器學習乾貨鋪

    NLP的建模流程一般包括下面八個步驟:

    1. 文字預處理

    - 移除html標籤

    - 轉化為標準的ASCII字元

    - 移除特殊字元

    - Stemming:轉化為原型

    - Lemmatization:詞形還原

    - 移除終止詞

    2. 文字解析:瞭解語言的句法和結構

    - Parts of Speech (POS) Tagging-詞性標註

    識別每個詞是名詞還是動詞,形容詞等等。

    - Shallow Parsing or Chunking-淺解析或分塊

    識別名詞短語,動詞短語,形容詞短語等等。

    - Constituency Parsing-成分解析

    識別句子的組成,比如句子 s 由名詞短語和動詞短語構成。

    - Dependency Parsing-依存分析

    識別token之間的依賴關係,比如 fox → brown 的標籤是 amod,表示修飾名詞的形容詞

    3. 探索性資料分析

    - 文字雲,柱形圖,熱圖等

    - word2vec

    4. 文字表示

    - Tokenization

    - Text to sequence

    - Padding sequences

    5. 特徵工程

    - 構造特徵

    6. 建模

    - 雙向LSTM,注意力機制,CNNs等

    7. 評估模型

    8. 部署

  • 中秋節和大豐收的關聯?
  • 登機手續什麼時候開始辦理?能否提前?