NLP的建模流程一般包括下面八個步驟:
1. 文字預處理
- 移除html標籤
- 轉化為標準的ASCII字元
- 移除特殊字元
- Stemming:轉化為原型
- Lemmatization:詞形還原
- 移除終止詞
2. 文字解析:瞭解語言的句法和結構
- Parts of Speech (POS) Tagging-詞性標註
識別每個詞是名詞還是動詞,形容詞等等。
- Shallow Parsing or Chunking-淺解析或分塊
識別名詞短語,動詞短語,形容詞短語等等。
- Constituency Parsing-成分解析
識別句子的組成,比如句子 s 由名詞短語和動詞短語構成。
- Dependency Parsing-依存分析
識別token之間的依賴關係,比如 fox → brown 的標籤是 amod,表示修飾名詞的形容詞
3. 探索性資料分析
- 文字雲,柱形圖,熱圖等
- word2vec
4. 文字表示
- Tokenization
- Text to sequence
- Padding sequences
5. 特徵工程
- 構造特徵
6. 建模
- 雙向LSTM,注意力機制,CNNs等
7. 評估模型
8. 部署
NLP的建模流程一般包括下面八個步驟:
1. 文字預處理
- 移除html標籤
- 轉化為標準的ASCII字元
- 移除特殊字元
- Stemming:轉化為原型
- Lemmatization:詞形還原
- 移除終止詞
2. 文字解析:瞭解語言的句法和結構
- Parts of Speech (POS) Tagging-詞性標註
識別每個詞是名詞還是動詞,形容詞等等。
- Shallow Parsing or Chunking-淺解析或分塊
識別名詞短語,動詞短語,形容詞短語等等。
- Constituency Parsing-成分解析
識別句子的組成,比如句子 s 由名詞短語和動詞短語構成。
- Dependency Parsing-依存分析
識別token之間的依賴關係,比如 fox → brown 的標籤是 amod,表示修飾名詞的形容詞
3. 探索性資料分析
- 文字雲,柱形圖,熱圖等
- word2vec
4. 文字表示
- Tokenization
- Text to sequence
- Padding sequences
5. 特徵工程
- 構造特徵
6. 建模
- 雙向LSTM,注意力機制,CNNs等
7. 評估模型
8. 部署