“條件域”被用於中文分詞和詞性標註等詞法分析工作,一般序列分類模型常常採用隱馬爾可夫模型(HMM),像基於類的中文分詞。
假設我們有Bob一天從早到晚的一系列照片,Bob想考考我們,要我們猜這一系列的每張照片對應的活動,比如: 工作的照片,吃飯的照片,唱歌的照片等等。一個比較直觀的辦法就是,我們找到Bob之前的日常生活的一系列照片,然後找Bob問清楚這些照片代表的活動標記,這樣我們就可以用監督學習的方法來訓練一個分類模型,比如邏輯迴歸,接著用模型去預測這一天的每張照片最可能的活動標記。這種辦法雖然是可行的,但是卻忽略了一個重要的問題,就是這些照片之間的順序其實是有很大的時間順序關係的,而用上面的方法則會忽略這種關係。比如我們現在看到了一張Bob閉著嘴的照片,那麼這張照片我們怎麼標記Bob的活動呢?比較難去打標記。但是如果我們有Bob在這一張照片前一點點時間的照片的話,那麼這張照片就好標記了。如果在時間序列上前一張的照片裡Bob在吃飯,那麼這張閉嘴的照片很有可能是在吃飯咀嚼。而如果在時間序列上前一張的照片裡Bob在唱歌,那麼這張閉嘴的照片很有可能是在唱歌。
為了讓我們的分類器表現的更好,可以在標記資料的時候,可以考慮相鄰資料的標記資訊。這一點,是普通的分類器難以做到的。而這一塊,也是CRF比較擅長的地方。在實際應用中,自然語言處理中的詞性標註(POS Tagging)就是非常適合CRF使用的地方。詞性標註的目標是給出一個句子中每個詞的詞性(名詞,動詞,形容詞等)。而這些詞的詞性往往和上下文的詞的詞性有關,因此,使用CRF來處理是很適合的,當然CRF不是唯一的選擇,也有很多其他的詞性標註方法。
“條件域”被用於中文分詞和詞性標註等詞法分析工作,一般序列分類模型常常採用隱馬爾可夫模型(HMM),像基於類的中文分詞。
假設我們有Bob一天從早到晚的一系列照片,Bob想考考我們,要我們猜這一系列的每張照片對應的活動,比如: 工作的照片,吃飯的照片,唱歌的照片等等。一個比較直觀的辦法就是,我們找到Bob之前的日常生活的一系列照片,然後找Bob問清楚這些照片代表的活動標記,這樣我們就可以用監督學習的方法來訓練一個分類模型,比如邏輯迴歸,接著用模型去預測這一天的每張照片最可能的活動標記。這種辦法雖然是可行的,但是卻忽略了一個重要的問題,就是這些照片之間的順序其實是有很大的時間順序關係的,而用上面的方法則會忽略這種關係。比如我們現在看到了一張Bob閉著嘴的照片,那麼這張照片我們怎麼標記Bob的活動呢?比較難去打標記。但是如果我們有Bob在這一張照片前一點點時間的照片的話,那麼這張照片就好標記了。如果在時間序列上前一張的照片裡Bob在吃飯,那麼這張閉嘴的照片很有可能是在吃飯咀嚼。而如果在時間序列上前一張的照片裡Bob在唱歌,那麼這張閉嘴的照片很有可能是在唱歌。
為了讓我們的分類器表現的更好,可以在標記資料的時候,可以考慮相鄰資料的標記資訊。這一點,是普通的分類器難以做到的。而這一塊,也是CRF比較擅長的地方。在實際應用中,自然語言處理中的詞性標註(POS Tagging)就是非常適合CRF使用的地方。詞性標註的目標是給出一個句子中每個詞的詞性(名詞,動詞,形容詞等)。而這些詞的詞性往往和上下文的詞的詞性有關,因此,使用CRF來處理是很適合的,當然CRF不是唯一的選擇,也有很多其他的詞性標註方法。