首頁>Club>
8
回覆列表
  • 1 # 二次元專業測評

    1:意圖識別要做啥?

    最近在寫文件的時候,寫不出來的時候就回去看看需求,一定反覆強調需求是什麼,而技術也類似,我們一定要想明白技術要替我們解決什麼。拿文字進行舉例,我們看到有使用者給我們一句話:“我想聽德雲社的相聲”,那我們其實可以姑且將其意圖歸類於影音需求,別看將其歸歸類是個很簡單活,但是這會對很多NLP應用帶來很多的提升,比如在我們熟悉的搜尋,我們搜尋的時候如果涉及到一條資訊對應多個分類的時候,這樣搜尋結果會比較差,但是如果我們透過意圖識別發現使用者是個遊戲迷,我們就可以在使用者搜尋時將遊戲的搜尋結果優先返還給使用者,這本身也是很有意義的一件事。

    2:意圖識別的方法

    因為意圖識別本身也是一個分類問題,其實方法和分類模型的方法大同小異。

    常用的有:

    1:基於詞典模板的規則分類

    2:基於過往日誌匹配(適用於搜尋引擎)

    3:基於分類模型進行意圖識別

    這三種方式基本上是目前比較主流的方法,現在進行意圖識別的難點主要是兩點,一點是資料來源的匱乏,因為方法已經比較固定,基本都是有監督學習,需要很多的標記資料,現在我們常用的資料要麼就是找專業標記團隊去買(我們是自己標記的,很噁心。。),要麼就是自己去爬,這方面還是很麻煩的。第二點是儘管是分類工作,但是意圖識別分類種類很多,並且要求的準確性,拓展性都不是之前的分類可比的,這一點也是很困難的。

    這次的思路是使用CNN+softmax進行分類,不同於傳統的如SVM,決策樹等傳統的分類方法,

    CNN對於長文字的分類效果還是不錯的,但是在短文字上相較RNN還是有一些差距。

    基本的思路與下圖所述的論文相似:

    既然CNN比不上RNN,為什麼還是選取了CNN,我的想法是文字分詞後一般會有粒度和語義的矛盾,粒度太大,分詞效果不好,粒度太小,語義丟失,而CNN核心過程是卷積,我們可以透過CNN的卷積將分完詞之後的詞的語義結合在一起,從而獲得更加準確的詞向量。

    現在說說這篇論文:

    這篇論文的網路結構如下:


    基本的結構為:輸入層->第一層卷積層->池化層->全連線層+softmax層

    現在也在進一步的嘗試中,目前還有幾個小trick:

    1:是否可以使用字向量代替詞向量?

    2:輸入的詞向量是否可以多換幾種表述方式?

    這幾個小trick等研究之後再來更新一下,我也是在學習中,大家如果有好的建議也請多多指教。

  • 中秋節和大豐收的關聯?
  • 紅腹松鼠怎麼分辨雌雄?