回覆列表
  • 1 # 翻轉的公牛

    停用詞(stopwords),詞典譯為“電腦檢索中的虛字、非檢索用字”。在seo中,為節省儲存空間和提高搜尋效率,搜尋引擎在索引頁面或處理搜尋請求時會自動忽略某些字或詞,這些字或詞即被稱為stopwords(停用詞、靜止詞)。

    停用詞一定程度上相當於過濾詞(filterwords),不過過濾詞的範圍更大一些,包含黃色、政治等敏感資訊的關鍵詞都會被視做過濾詞加以處理,停用詞本身則沒有這個限制。通常意義上,停用詞(stopwords)大致可分為如下兩類:

    1、使用十分廣泛,甚至是過於頻繁的一些單詞。比如英文的“i”、“is”、“a”、“the”,中文的“我”、“的”之類詞幾乎在每個文件上均會出現,查詢這樣的詞搜尋引擎就無法保證能夠給出真正相關的搜尋結果,難於縮小搜尋範圍提高搜尋結果的準確性,同時還會降低搜尋的效率。因此,在真正的工作中,google和百度等搜尋引擎會忽略掉特定的常用詞,在搜尋的時候,如果我們使用了太多的停用詞,也同樣有可能無法得到非常精確的結果,甚至是可能大量毫不相關的搜尋結果。

    2、文字中出現頻率很高,但實際意義又不大的詞。這一類主要包括了語氣助詞、副詞、介詞、連詞等,通常自身並無明確意義,只有將其放入一個完整的句子中才有一定作用的詞語。如常見的“的”、“在”、“和”、“接著”之類,比如“sem分享是個關於sem的部落格”這句話中的“是”、“的”就是兩個停用詞。

  • 中秋節和大豐收的關聯?
  • 我想請問一下,寶雕小暴龍和貝納利小暴龍如何區分?