首頁>科技>

提起自然語言處理,不少人會覺得陌生而遙遠。事實上,從獨立的漢字,擴充套件到連貫的詞語、句子、篇章,乃至新聞輿情,都離不開NLP的作用。接下來讓我們一起來了解一下,自然語言處理是如何在文字的世界裡大展拳腳的吧。

產品介紹

自然語言處理(Natural Language Process,簡稱NLP),是一款基於人工智慧技術,為各行各業的企業和開發者提供的針對文字智慧化分析及處理的雲服務,意在幫助使用者高效處理文字資料,實現數字化和智慧化轉型。

產品深度整合了騰訊內部(包括AI Lab,資訊保安團隊、AI平臺部、翻譯君和知文團隊自研等)優秀的 NLP 前沿技術,依託於海量中文語料累積,全面覆蓋了從基礎到高階的智慧文字處理能力。

產品功能

騰訊雲自然語言處理(Natural Language Process,NLP),前身為騰訊文智自然語言處理,現經過全新升級,正式釋出v1.0版本。

基礎版包括詞法分析、句法分析、篇章分析、向量技術、情感分析、文字糾錯、文字分類等;高階版包括敏感詞識別、文字稽核等。

應用場景

01、社交媒體的使用者言論分析

在各類媒體平臺和存在UGC的內容型社群裡,有大量的使用者留言和評論,可以使用情感分析介面,對這些包含主觀資訊的使用者言論進行情感傾向性分析,判斷使用者情感和態度的正向、負向和中性傾向,從而動態監測海量使用者的輿情變化,併為相關的輿情監控、話題監督、口碑分析和運營活動提供資料支援。

此外,還可以使用文字分類和關鍵詞提取介面,對使用者言論進行內容分類和評論觀點標籤提取,從而稽核社交媒體的使用者行為資料。

02、網路文字資料的敏感資訊稽核

資訊爆炸時代,對於新聞媒體網站和資訊流App中的海量文字資料的合法性、健康度和敏感程度有更高要求。此時可以使用敏感詞識別介面,實時識別出文本中是否含有廣告、色情、暴力或政治等敏感資訊,同時返回顯示相關的敏感詞,有效實現對網路文字資訊合法合規性的全方位保駕護航,併為資訊資訊的品質提供保障。

在敏感資訊過濾、輿情監控、熱門話題監督、UGC文字資料稽核、遊戲社群敏感資訊稽核等場景中,敏感詞識別介面有著廣泛的使用需求。

03、使用者指令解析

智慧客服為使用者服務的前提是理解使用者的指令,這時,可以使用詞法分析介面,包含智慧分詞(基本詞和短語)、詞性標註、命名實體識別三大功能,利用該介面服務對使用者所表達的文字進行預處理。具體來說,該服務以智慧分詞和詞性標註為基礎,首先識別出文本中的基本詞彙(分詞),然後對這些詞彙進行重組,同時對重組後的詞彙進行詞性標註,最後進一步識別出命名實體(專有名詞識別);通過分析使用者語音或文字命令中的關鍵名詞、動詞、數量詞、時間、地名等,準確理解使用者指令的含義,極大提升使用者體驗和使用者對智慧客服的滿意度。

04、新聞資訊個性化推薦

當前的資訊聚合時代,使用者閱讀新聞的習慣已經從網頁端逐漸轉向了手機App,而且越來越青睞新聞資訊類App的內容個性化推薦功能。個性化推薦功能的實現離不開自然語言處理的幫助。

針對新聞資訊類App,可以使用詞法分析(智慧分詞、詞性標註、命名實體識別)和文字分類介面。先對海量新聞的內容型別進行自動分類,獲得文字主題的一級分類、二級分類,並對主題詞彙進行標記;然後結合使用者畫像,將不同的資訊內容推薦給關注了相應主題的使用者,最終實現千人千面、精準個性化推薦的效果,每個使用者開啟App後看到的都是自己最感興趣的新聞資訊,使用者的閱讀體驗得到了大幅度提升。

05、文字智慧糾錯

在智慧客服的工作場景裡,語音轉文字的過程中,不可避免地會出現一些上下文錯位和措辭上的文字錯誤。如果單純使用人工來糾錯,會消耗大量的人力成本。這時,可以使用句法依存分析和文字糾錯介面,對文字中各個語言單位之間的語義關聯進行分析,同時實現對文字的自動糾錯,提升語音轉文字的效率和品質。

在出版物或掃描件文件的影象轉文字(OCR)場景裡,句法依存分析和文字糾錯介面也可用於影象中的文字識別結果驗證中。

此外,辦公文件稽核、文字智慧質檢等場景中,對文字糾錯和句法依存分析介面也有大量需求。

06、金融文件結構化抽取

在銀行、保險、證券等金融領域和政務領域中,常有大量的文件和單據需要人工進行整理、提煉和歸檔。這時,可以使用詞法分析(智慧分詞、詞性標註、命名實體識別)、關鍵詞提取和文字分類介面,首先對大量的金融或政務文件進行分類,然後再進行文字資料的關鍵資訊抽取和結構化排布,可以有效地輔助人工來處理各種文件和單據,降低人力成本。

07、網路文字內容檢索

不同的使用者針對網際網路環境或資料庫中的文字資料存在不同的資訊檢索需求。這時,可以使用詞法分析(智慧分詞、詞性標註、命名實體識別)和關鍵詞提取介面,對文字的標題和內容進行核心關鍵詞分析,提取出能夠反映文字關鍵資訊的主題、話題、實體等多維度詞彙標籤;然後聚合相同關鍵詞標籤的文字資料,並精準提供給使用者,便於使用者對該型別的文字資料進行全方位的資訊閱讀。

最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 5萬元起家的快遞“首富”,身價曾超王衛,現在品牌或將解散