停用詞(stop words)是在機器學習或資料分析中用到的概念,往往指的是對於分析目標無用或者容易引起干擾的詞;
舉個例子,比如在文字挖掘任務中,如果想對文章進行分類,把一堆文章中根據文章中出現的詞來區分文章的型別,比如屬於“體育”型別的文章中往往出現更多的足球、籃球等字樣, “娛樂”型別的文章會出現某些明星的名字等等。在進行機器學習過程中, 本質就是根據這些“關鍵資訊”建模,發現規律,進而進行新文章的預測來判斷文章的歸屬。
正因為類別的歸屬(上文中的文章類別)是由哪些“關鍵詞”出現的頻率決定的,如果文章中出現一些無關痛癢的詞並且這些出現的詞頻很多的話,比如“你”,“我”, “它”, 就會造成原有的“關鍵詞”的重要性減弱,導致訓練出來的模型不能正確判斷類別。因此, 在機器學習的資料預處理階段,會找到常用詞或者對分析主題無關的詞作為“停用詞”。
停用詞的收集可以分為幾個方面,一個是根據語言中的常用詞,比如中文常用詞(“的”,“了”。。。),英文常用詞( “is" , "are"....);另外就是找到和預測主題無關的詞(這部分需要自己根據業務的理解加到停用詞列表中去)。
補充:中文常用詞作為停用詞可以參考哈工大停用詞表或者在一些中文分詞庫如結巴分詞提供;英文停用詞網上也很多或者找NLTK中的停用詞列表
停用詞(stop words)是在機器學習或資料分析中用到的概念,往往指的是對於分析目標無用或者容易引起干擾的詞;
舉個例子,比如在文字挖掘任務中,如果想對文章進行分類,把一堆文章中根據文章中出現的詞來區分文章的型別,比如屬於“體育”型別的文章中往往出現更多的足球、籃球等字樣, “娛樂”型別的文章會出現某些明星的名字等等。在進行機器學習過程中, 本質就是根據這些“關鍵資訊”建模,發現規律,進而進行新文章的預測來判斷文章的歸屬。
正因為類別的歸屬(上文中的文章類別)是由哪些“關鍵詞”出現的頻率決定的,如果文章中出現一些無關痛癢的詞並且這些出現的詞頻很多的話,比如“你”,“我”, “它”, 就會造成原有的“關鍵詞”的重要性減弱,導致訓練出來的模型不能正確判斷類別。因此, 在機器學習的資料預處理階段,會找到常用詞或者對分析主題無關的詞作為“停用詞”。
停用詞的收集可以分為幾個方面,一個是根據語言中的常用詞,比如中文常用詞(“的”,“了”。。。),英文常用詞( “is" , "are"....);另外就是找到和預測主題無關的詞(這部分需要自己根據業務的理解加到停用詞列表中去)。
補充:中文常用詞作為停用詞可以參考哈工大停用詞表或者在一些中文分詞庫如結巴分詞提供;英文停用詞網上也很多或者找NLTK中的停用詞列表