回覆列表
  • 1 # 使用者7057946224082

    第一代靈犬,應用的是“詞向量”和“CNN”技術。詞向量的優勢是讓詞蘊含語義資訊,突破了詞表模型不具備語義資訊的缺陷;CNN是“卷積神經網路”的縮寫,這種分類結構速度快、擬合效果好。這一代訓練資料集,包含350萬資料樣本,其中正樣本200萬,負樣本150萬,對隨機樣本的預測準確率達到79%。

    第二代靈犬,應用的是“LSTM”和“Attention”技術。LSTM是“長短期記憶”的縮寫,這種神經網路對序列建模效果更好,對長文的識別效果更好。“Attention”是注意力機制,能結合詞和詞之間的資訊,給出更全域性的判斷。這一代訓練資料集,包括840萬資料樣本,其中正樣本量為240萬,負樣本600萬,文字識別準確率提升至85%。

    第三代靈犬,應用到的是“Bert”和半監督技術。“Bert”是當前最先進的自然語言處理技術,是這個領域近年來重大進展的集大成者。這項技術在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上,大幅提高了效能。

    “Bert”提出了一種新的更大規模的結構,引數量是之前模型的10倍多,計算量也提高了10倍多,對語義的刻畫更為準確。半監督技術,能引入更多非標註語料,使得模型的魯棒性(即穩健性)更好。

    這裡解釋下,“監督”和“半監督”的含義。監督技術是利用標註資料,來調整模型的引數;半監督技術是同時使用標記資料和未標記資料,使模型對樣本的學習更加充分。半監督狀態時,會要求儘量少的人工參與,同時,又能夠帶來比較高的準確性。半監督技術的好處是,我們可以用更大規模的語料庫來訓練我們的模型。

  • 中秋節和大豐收的關聯?
  • 文玩橄欖核有開裂怎麼辦?