方案一:藉助Excel如果使用場景是偶爾統計一篇文章不長的詞頻,可以使用excel:(Excel 2007~2013的版本里,一個單元格最多容納32,767個字元,也就是說目標文章不能超過32,767個字,不然就得分割開統計)(如果經常使用,可以給Excel錄製宏)步驟1:統計一個字詞、兩個字詞、三個字詞、四個字詞……n個字詞出現的頻率注:
方案一:藉助Excel如果使用場景是偶爾統計一篇文章不長的詞頻,可以使用excel:(Excel 2007~2013的版本里,一個單元格最多容納32,767個字元,也就是說目標文章不能超過32,767個字,不然就得分割開統計)(如果經常使用,可以給Excel錄製宏)步驟1:統計一個字詞、兩個字詞、三個字詞、四個字詞……n個字詞出現的頻率注:
B3單元格內輸入的是目標文章全文C3是全文字數(含標點符號),D3內容即是C3所用的公式B6是序號1~序號1276C6的公式含義為在B3裡取目標字元,該目標是從第B6個字元開始,字元長度為1,D6為C6公式內容E6為統計C6~C1281區間內,C6這個字元出現的頻率為便於顯示文末部分,Excel第16行至1269行的內容已隱藏。如果文章為英文,那更簡單,可以將B3內容以空格為分列符號進行分列操作:選中B3,點選選單[資料]-[分列]-[分隔符號],勾選[空格],完成。完成後單詞會按“一個單詞佔一個單元格”形式列為1行。全選後複製、“選擇性貼上”-“轉置”,即可將單詞列為上圖C列的效果,再同樣用F列的公式統計一次即可。步驟2:將上述統計表格以“選擇性張貼”-“貼上值”形式貼上到第二張Sheet,對各顏色區域分別作詞頻降序排序(例:同時選中B4、C4,按Ctrl+Shift+L,對詞頻降序排序,後同)步驟3:選中一種顏色區域,作“刪除重複項”操作,其餘顏色區域操作相同。工具位置見滑鼠指標步驟4:將雙字詞、三字詞、四字詞等內容進行人工刪選,刪去不是詞語的部分,忽略詞頻較少的部分,彙總後即為詞頻統計結果。注:由於沒有詞庫,此部分只能人工刪選。如果有詞庫,可以將上表結果合併成B、C兩列(詞語、詞頻兩列),再在第三列D貼上詞庫,第四列E再作一次countif公式,如:E5=COUNTIF(D:D,B5),統計B5在詞庫中出現的次數。E列的結果只有2種:1(B列的詞語存在於詞庫D中),0(B列的詞語不存在於詞庫D中)。然後對E列結果作篩選,僅顯示結果為“1”的內容,隱藏D列,結果就出來了。方案二,使用工具:漢語詞頻統計工具與網上流傳的詞頻統計軟體相比,這款比較簡單,只能統計中文,但免費。得到統計資料後還需借用Excel排序下。.