回覆列表
  • 1 # AiMath

    計算機做計算的時候,無法直接處理文字,因此需要把文字轉化為向量,一個文字和一個向量是一一對應的,類似人和人的身份證證號。onehot編碼是文字向量化的一種,但這種編碼失去文字語義,只是一種身份標記。tf-idf也可以實現詞向量,它增加了文字的統計特徵,比如詞頻和逆文件詞頻,應用很廣,效果也不錯。最流行的word2vec模型,保持了大部分的語義特徵,成為nlp標準工具。最近研究熱點是bert模型,也是詞向量化的一種。這些詞向量模型往往成為其他模型輸入口,比如命名實體識別模型word2vec+bilstm+crf和bert+bilstm+crf。

    juba是中文自然語言處理(NLP)工具包,實現詞向量、文件向量、詞語相似、文件相似、文字生成、時間序列擬合和中文命名實體識別等功能。https://github.com/lihanju/juba

    juba的命名實體識別模型使用的是bert+bilstm+crf,可以試一試效果。

  • 2 # 繁星落石

    不一定是。

    可以用這樣的方式,但是如果處理比如辭海這種大規模的文字資訊的話,onehot會導致稀疏程度太過而效率非常低。一般會採用一些更加合適的方式比如詞袋或word embedding之類的方法,可以使用淺層MLP網路來實現一種對映關係,這種對映關係可以幫助不同的文字或者詞進入指定維度的向量空間中,作為一個座標提供給演算法去進行後續的處理。

  • 中秋節和大豐收的關聯?
  • 馬桶水箱漏水怎麼修?