回覆列表
  • 1 # 1996cdy

    這還真不是很簡單的事情,首先你要有敏感詞彙表,如果你的詞不多的情況下可以正則匹配使用者輸入的話,但是一般這個敏感詞會很多,這個時候需要高效能的字元匹配演算法,比如kmp,或者藉助字典樹結構。

    還有一些情況使用者會在敏感詞中間夾雜無效字元來矇混過關,這個時候你有需要無效字元表。

    綜上,其實最難的部分就是敏感詞彙表和無效字元表,如果人為的維護工作量是在太大了,可以使用機器學習,讓其幫助完善兩個詞彙表。

  • 2 # 求索的豬

    首先這是一個動態的過程!敏感詞彙會不斷重新整理,關於這一步可以藉助流處理技術更新敏感詞詞庫! 其次,關於過濾有很多種方式!絕對嚴格過濾,比如map資料結構,但效率低!可以參考布隆過濾器一級過濾,效率高,資源佔用少,不過有容錯率,二級過濾可以參考其他嚴格過濾方案,甚至你可以有三級過濾!正則表示式不是特別符合這個需求,個人觀點

  • 3 # 惆悵的海

    和諧社會很重要。後臺,設定敏感詞,出現主動過濾。魔獸世界裡面大腳聊天插價,設定了老闆。就能夠過濾好多在世界喊帶人刷副本的玩家。

  • 4 # 朱超迪0829

    我們以前遊戲裡邊都是用正則匹配,但是如果能容忍錯誤率,其實使用布隆演算法也是可以的,布隆演算法常用於攔截垃圾郵件

  • 5 # bylii泡麵

    一般來說,要有詞庫,那麼就涉及到人工智慧和大資料,這些東西,不是普通小廠能做的,購買大廠的服務最划算,如果是自己搞個簡單詞庫過濾,說明體量也不大,不做過濾功能也沒事

  • 6 # 媒體號

    兩段程式碼作為例子,其他請舉一反三。

    最後 吐槽一下問答,插入程式碼功能都沒有,玩個錘子?

  • 中秋節和大豐收的關聯?
  • 數字媒體藝術設計這個專業怎麼樣?前景如何?