靈犬反低俗助手怎麼拿0分？

首頁>Club>耗子實況2020-06-10 08:46

靈犬反低俗助手怎麼拿0分？

靈犬反低俗聯盟

回覆列表

1 # 搞笑壯壯

在文字識別領域，新版“靈犬”同時應用了“Bert”和“半監督技術”，訓練資料集包含920萬個樣本，準確率提升至91%。在圖片識別領域，“靈犬”採用深度學習作為解決方案，在資料、模型、計算力等方面均做了針對性優化。

資訊大爆炸時代，打擊低俗低質內容，是當前全球資訊平臺都面臨的難題，然而反低俗無法單一地依靠技術或人工解決。
位元組跳動人工智慧實驗室總監王長虎表示，“低俗的定義相對籠統，很難完全精確地定義出來，這項工作即使對人來說也不容易，交給機器做更難實現。

例如斷句不同導致的歧義：

一些技術難以搞定的問題，現階段還有賴於人工判斷。

比如，機器通過識別畫中人物的面板裸露面積進行判斷，這就導致反低俗演算法曾將《草地上的午餐》認定為低俗色情內容。而某些拍攝芭蕾舞的圖片，以機器的視角來看，其實類似於裙底偷拍。

還有因為使用場景、人群不同而導致標準變動的案例：內衣和內衣模特出現在購物平臺上，會被預設為正常，但如果頻繁出現在新聞資訊平臺上，就可能被認為有低俗嫌疑；正常的熱舞內容，提供給成年人看符合常規標準，但如果是面向青少年，這些內容就不應該出現。
新版“靈犬”重點拓展了反低俗識別型別和模型能力，現已覆蓋圖片識別（反色情低俗、反血腥暴力）和文字識別（反色情低俗、反暴力謾罵、反標題黨）。後續還將支援語音識別和視訊識別。

使用者只需要在“靈犬”內輸入一段文字或文章連結，“靈犬”就可以幫助其檢測內容健康指數，返回一個鑑定結果。

據王長虎介紹，“靈犬”背後的文字分類模型，已經經過了三次迭代。

第一代“靈犬”，應用的是“詞向量”和“CNN（卷積神經網路）”技術，訓練資料集包含350萬資料樣本，對隨機樣本的預測準確率達到79%。第二代“靈犬”，應用的是“LSTM（長短期記憶）”和“Attention”技術，訓練資料集包含840萬資料樣本，準確率提升至85%。
新版“靈犬”同時應用了“Bert”和半監督技術，並且在此基礎上使用了專門的中文語料，在不犧牲效果的情況調整了模型結構，使得計算效率能達到實用水平。“Bert”是當前最先進的自然語言處理技術，是該領域近年來重大進展的集大成者。這項技術在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上，大幅提高了效能。

這一代“靈犬”訓練資料集總量是1.2個T，相當於20倍百度百科或100倍維基百科的資料總量，包含920萬個樣本，準確率提升至91%。

不同於文字識別，圖片識別的技術難點主要在於三方面：非均衡、類內方差大和不可窮舉，即，低俗圖片佔整體圖片內容的比例較低，低俗圖片的種類豐富、繁雜，構成低俗圖片的特徵千差萬別。
對此，“靈犬”運用的解決方案，是深度學習。“我們分別在資料、模型、計算力等方面做了很多優化。”王長虎說。資料層面，“靈犬”已累積上千萬級別的訓練資料。模型層面，“靈犬”針對許多困難樣本做了模型結構調優，嘗試解決多尺寸、多尺度、小目標等複雜問題。計算力層面，“靈犬”利用分散式訓練演算法以及GPU訓練叢集，加速模型的訓練和除錯。

當前，“靈犬”建設了比較完善的模型迭代系統。通過“資料收集—資料標註—資料清洗—模型訓練—模型評估—badcase分析”這一套完整的流程，持續做優化。

劇多

靈犬反低俗助手怎麼拿0分？

靈犬反低俗聯盟

相關內容