國語有之“防民之口,甚於防川,”一句很簡單的話卻深刻地體現出了民眾輿情的重要性,由此可見,放在商業環境下“聽到客戶的聲音,對企業來說非常重要”。在如今移動網際網路時代,我們身邊充斥著各種各樣的資料與資訊,這些資料與資訊成為重要的企業、使用者輿情分析來源,有非常大的價值,那麼如何高效地處理、分析這些資料,都有哪些業務場景,讓我們來一起了解下。
一、做企業、客戶洞察分析,非結構化的資料處理能力是關鍵企業想要做大資料洞察分析要解決的問題有很多,從資料角度看關鍵的還是非結構化的處理能力。結構化的資料比如企業內部管理系統資料:ERP、CRM、客服系統以及各個終端的使用者行為資料等,半/非結構化常見的如行網站留言、產品評論、微博評論、論壇、分析報告等,傳統的分析系統面對結構化資料有較為成熟的解決方案,但是面對海量的半/非結構化資料卻很難應用起來,有些企業甚至還依賴一些傳統的操作方式,比如企業輿情人員在接受到任務後,直接從各種可能的資訊源中查找出有參考價值的資料,手工整理、彙總後實現資訊發現。
依靠人力只能分析區域性資訊,想要觀察某行業、某群體的趨勢、聲量等,基本難以實現,因此如何從海量半/非結構化資料中提煉出價值資訊,並將其轉為結構化資料用來統計、分析是目前眾多企業亟需解決的難題。
(圖:達觀NLP語義分析)
達觀的VOC系統以自研的NLP平臺為基礎,能夠有效地把非結構化資料轉結構化,從而實現從海量且紛繁複雜的文字資料中提取有價值的資訊,幫助企業實現感知社會輿論、挖掘使用者需求、瞭解競品動向、最佳化運營效率的目標。
(圖:達觀VOC系統架構圖)
三、客戶聲音洞察系統場景舉例下面我們就通過幾個業務場景介紹達觀VOC系統的資訊挖掘、分析能力。
場景6:以開源的資訊網站資料為基礎,以企業為視角,對文字內容進行分析,挖掘出公司實體+情感分析+風險標籤,能夠預警相關企業風險。
場景7:以行業分析報告為基礎資料,總結、提煉報告核心觀點。
場景8:其他核心能力:資料清洗能力。
企業想要獲得精準的企業、客戶洞察分析,資料是基礎,資訊分析與挖掘能力決定系統的上限,但是往往資料的質量卻是決定了系統水平的下限,垃圾資料會在整個分析過程中混淆使用者視線,甚至影響使用者決策,那麼如何有效地清理垃圾資料呢?達觀的客戶聲音洞察系統則透過以下2種方式解決大部分垃圾資料問題。
1、基於規則的定向清洗:基於文字標題、內容中包含某些關鍵詞進行過濾、清洗,往往依賴業務人員梳理大量的違禁詞典,效果比較精準,但是badcase較多,維護工作較為頻繁。
2、基於語義理解的模型清洗:可以根據實際的業務需要定製不同型別的模型,比如想配合營銷部門跟進微博、論壇、使用者評論中的某款手機的產品評價,很明顯評論中需要包含正/負面情感傾向以及有關於手機名字/型號的一些描述,則可以透過情感分析模型+命名實體模型過濾掉大部分垃圾資料;如果擔心同一篇文章會被轉載到多個渠道,或者是一些惡意刷帖、灌水等造成的資料重複問題,則可以透過文字比對模型來應對,文字相似度的閾值使用者可以根據實際情況靈活配置。
(圖:達觀模型自學習反饋機制)
說了這麼多NLP給企業、使用者洞察分析帶來的優點、好處,那麼應用過程中有哪些難點與挑戰呢?任何一個模型都不可能是百分百精準,可能會導致資訊分類、提取不準的情況。但達觀的客戶聲音洞察系統的機器學習演算法結合人工反饋機制,透過收集使用者的操作、修改記錄能夠讓模型的正樣本數量與質量不停得到提升,結合演算法工程師的輔助調優,從而讓模型效果越用越好。