在文字識別領域,新版“靈犬”同時應用了“Bert”和“半監督技術”,訓練資料集包含920萬個樣本,準確率提升至91%。在圖片識別領域,“靈犬”採用深度學習作為解決方案,在資料、模型、計算力等方面均做了針對性優化。
資訊大爆炸時代,打擊低俗低質內容,是當前全球資訊平臺都面臨的難題,然而反低俗無法單一地依靠技術或人工解決。
位元組跳動人工智慧實驗室總監王長虎表示,“低俗的定義相對籠統,很難完全精確地定義出來,這項工作即使對人來說也不容易,交給機器做更難實現。
例如斷句不同導致的歧義:
一些技術難以搞定的問題,現階段還有賴於人工判斷。
比如,機器通過識別畫中人物的面板裸露面積進行判斷,這就導致反低俗演算法曾將《草地上的午餐》認定為低俗色情內容。而某些拍攝芭蕾舞的圖片,以機器的視角來看,其實類似於裙底偷拍。
還有因為使用場景、人群不同而導致標準變動的案例:內衣和內衣模特出現在購物平臺上,會被預設為正常,但如果頻繁出現在新聞資訊平臺上,就可能被認為有低俗嫌疑;正常的熱舞內容,提供給成年人看符合常規標準,但如果是面向青少年,這些內容就不應該出現。
新版“靈犬”重點拓展了反低俗識別型別和模型能力,現已覆蓋圖片識別(反色情低俗、反血腥暴力)和文字識別(反色情低俗、反暴力謾罵、反標題黨)。後續還將支援語音識別和視訊識別。
使用者只需要在“靈犬”內輸入一段文字或文章連結,“靈犬”就可以幫助其檢測內容健康指數,返回一個鑑定結果。
據王長虎介紹,“靈犬”背後的文字分類模型,已經經過了三次迭代。
第一代“靈犬”,應用的是“詞向量”和“CNN(卷積神經網路)”技術,訓練資料集包含350萬資料樣本,對隨機樣本的預測準確率達到79%。第二代“靈犬”,應用的是“LSTM(長短期記憶)”和“Attention”技術,訓練資料集包含840萬資料樣本,準確率提升至85%。
新版“靈犬”同時應用了“Bert”和半監督技術,並且在此基礎上使用了專門的中文語料,在不犧牲效果的情況調整了模型結構,使得計算效率能達到實用水平。“Bert”是當前最先進的自然語言處理技術,是該領域近年來重大進展的集大成者。這項技術在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上,大幅提高了效能。
這一代“靈犬”訓練資料集總量是1.2個T,相當於20倍百度百科或100倍維基百科的資料總量,包含920萬個樣本,準確率提升至91%。
不同於文字識別,圖片識別的技術難點主要在於三方面:非均衡、類內方差大和不可窮舉,即,低俗圖片佔整體圖片內容的比例較低,低俗圖片的種類豐富、繁雜,構成低俗圖片的特徵千差萬別。
對此,“靈犬”運用的解決方案,是深度學習。“我們分別在資料、模型、計算力等方面做了很多優化。”王長虎說。資料層面,“靈犬”已累積上千萬級別的訓練資料。模型層面,“靈犬”針對許多困難樣本做了模型結構調優,嘗試解決多尺寸、多尺度、小目標等複雜問題。計算力層面,“靈犬”利用分散式訓練演算法以及GPU訓練叢集,加速模型的訓練和除錯。
當前,“靈犬”建設了比較完善的模型迭代系統。通過“資料收集—資料標註—資料清洗—模型訓練—模型評估—badcase分析”這一套完整的流程,持續做優化。
在文字識別領域,新版“靈犬”同時應用了“Bert”和“半監督技術”,訓練資料集包含920萬個樣本,準確率提升至91%。在圖片識別領域,“靈犬”採用深度學習作為解決方案,在資料、模型、計算力等方面均做了針對性優化。
資訊大爆炸時代,打擊低俗低質內容,是當前全球資訊平臺都面臨的難題,然而反低俗無法單一地依靠技術或人工解決。
位元組跳動人工智慧實驗室總監王長虎表示,“低俗的定義相對籠統,很難完全精確地定義出來,這項工作即使對人來說也不容易,交給機器做更難實現。
例如斷句不同導致的歧義:
一些技術難以搞定的問題,現階段還有賴於人工判斷。
比如,機器通過識別畫中人物的面板裸露面積進行判斷,這就導致反低俗演算法曾將《草地上的午餐》認定為低俗色情內容。而某些拍攝芭蕾舞的圖片,以機器的視角來看,其實類似於裙底偷拍。
還有因為使用場景、人群不同而導致標準變動的案例:內衣和內衣模特出現在購物平臺上,會被預設為正常,但如果頻繁出現在新聞資訊平臺上,就可能被認為有低俗嫌疑;正常的熱舞內容,提供給成年人看符合常規標準,但如果是面向青少年,這些內容就不應該出現。
新版“靈犬”重點拓展了反低俗識別型別和模型能力,現已覆蓋圖片識別(反色情低俗、反血腥暴力)和文字識別(反色情低俗、反暴力謾罵、反標題黨)。後續還將支援語音識別和視訊識別。
使用者只需要在“靈犬”內輸入一段文字或文章連結,“靈犬”就可以幫助其檢測內容健康指數,返回一個鑑定結果。
據王長虎介紹,“靈犬”背後的文字分類模型,已經經過了三次迭代。
第一代“靈犬”,應用的是“詞向量”和“CNN(卷積神經網路)”技術,訓練資料集包含350萬資料樣本,對隨機樣本的預測準確率達到79%。第二代“靈犬”,應用的是“LSTM(長短期記憶)”和“Attention”技術,訓練資料集包含840萬資料樣本,準確率提升至85%。
新版“靈犬”同時應用了“Bert”和半監督技術,並且在此基礎上使用了專門的中文語料,在不犧牲效果的情況調整了模型結構,使得計算效率能達到實用水平。“Bert”是當前最先進的自然語言處理技術,是該領域近年來重大進展的集大成者。這項技術在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上,大幅提高了效能。
這一代“靈犬”訓練資料集總量是1.2個T,相當於20倍百度百科或100倍維基百科的資料總量,包含920萬個樣本,準確率提升至91%。
不同於文字識別,圖片識別的技術難點主要在於三方面:非均衡、類內方差大和不可窮舉,即,低俗圖片佔整體圖片內容的比例較低,低俗圖片的種類豐富、繁雜,構成低俗圖片的特徵千差萬別。
對此,“靈犬”運用的解決方案,是深度學習。“我們分別在資料、模型、計算力等方面做了很多優化。”王長虎說。資料層面,“靈犬”已累積上千萬級別的訓練資料。模型層面,“靈犬”針對許多困難樣本做了模型結構調優,嘗試解決多尺寸、多尺度、小目標等複雜問題。計算力層面,“靈犬”利用分散式訓練演算法以及GPU訓練叢集,加速模型的訓練和除錯。
當前,“靈犬”建設了比較完善的模型迭代系統。通過“資料收集—資料標註—資料清洗—模型訓練—模型評估—badcase分析”這一套完整的流程,持續做優化。