回覆列表
  • 1 # 笑侃塵世浮華

    智慧催收

    顧名思義,此專案使用人工智慧技術輔助催收,以提升催收效果、節約催收人員培訓成本。

    目前我帶著一個實習生呼延偉在做:話術生成,來年繼續完善並著手探索催收機器人。

    話術生成

    根據案件資訊自動生成一份催收話術範文,舉個簡單的例子:

    例子:A向宜人貸借錢2w,如今逾期了兩期,期間打過一次電話催他還錢,通話中提了逾期對個人信用的影響等等,那麼下次何時給他打電話、通話時聊什麼能使他儘快還錢呢?

    -- 模型就是用來解決這個問題的,把歷史的催收資料餵給模型讓它學會績優催收人員的慣用套路,後續使用時將案件資訊告訴它,它就會分析案件並輸出一份標準的話術模板。

    當然,實際情況要比例子複雜的多,對於不同的產品、催收物件、逾期數、前置鋪墊等等 講的topic和力度都會差很多,這些條件的組合是指數級的,用技術可以更好hold住所有情況也可以做的更細粒度;模型也沒有私心、它比人更願意分享、生成的話術也更規範、更合規;抽的句子級、主題級話術也是後續做chat bot的語料。

    話術生成主要包括“話術抽取”和“範文生成”,主要使用了:詞權重模型、BOW、topic model(LSA、LDA)、關鍵詞/句抽取、層次聚類、自動摘要、語義連貫性度量模型等。其中,詞權重模型是後續很多步驟的基礎,現有的演算法與我們的場景不太match、實際效果也不好,比如TF--我發現好的話術/詞與其在一次催收中出現的頻率並不成正比(這裡也斃掉了一堆基於語義+圖+pagerank的演算法,如textrank等,它們本質雷同“詞本身/同義詞出現越多越關鍵”)、IDF--沒有考慮類別資訊(績優or績差)、ICF--考慮了類別資訊、但在二類情況下不夠smooth、等等,所以我根據業務先驗知識重新定義了token的local weight和global weight。

    (小心得:現有的學術模型雖然很多,但並不一定與工業界的具體場景match,還是要多看資料、多看資料、多看資料,歸納先驗,根據實際情況選擇or重製model)

    話術抽取:有了上面的詞權重模型後就可以用BOW、topic model對文件向量化、做聚類,使內容雷同(如打給相同物件、具有相同話題 等)的文字大機率聚到一類中,從催收效果好的類中抽取topic(談個人影響、談法律、談上門催收等等),再從各topic中抽取範句。

    範文生成:先根據案件資訊決定本次通話的topic slot(一個簡單的基於統計的bayes就可以搞定),根據既定的topic選出候選sentences,透過語義連貫性度量模型+beam search把句子組合成更流暢的範文。這裡的語義連貫性度量模型是可以在chat bot中複用的,暫時用的是一個簡單的end2end模型,主要包括兩部分:1,hierarchical BILSTM encoder,分別做sentence級別的和paragraph級別的encode;2,topic encoder,對topic編號、embedding、透過RNN對topic sequence做encode;concat起1和2的vector後接DNN做評分。為了提高範文的質量與多樣性防止以後用到bot上後淨回覆廢話(源於MLE固有的缺陷),用強化學習策略網路對模型retrain,根據句子的質量(用之前的詞權重模型度量)做good/bad reward,這一塊還在實驗。

    (我去,一個專案就囉囉嗦嗦寫了這麼多,下面的得簡練一些)

    反欺詐

    這個好理解:根據進件特徵判斷進件人(即申請貸款的人)是不是欺詐使用者。

    我主要從特徵和模型兩方面做了些實驗。

    特徵挖掘:利用community detection演算法對社交網做分團、以發現欺詐團伙、為決策模型提供特徵。技術方面見這篇文章:圖計算1:社群發現(分團)-python(networkx 、igraph),不贅述了。

    模型:實驗了一下 傳統ML的LR、隨機森林等以及DL的多層的NN做欺詐預測。其中在深層網路中實驗了多種trick:比如為了減少原始資訊在中間各層傳遞時的損失,參考了residual network以及highway network的思路、有時甚至直接把原始input concat上當前層的輸出傳遞給下一層。結論就是:...嗯...業務上的東西不能寫、那麼結論就是~ 用pytorch寫各種腦暴的“非主流”模型最爽!可以靈活的拼各種奇形怪狀的模型,而且升級時API的變動也不會像TensorFlow那麼大!(講真、TensorFlow的API老是變來變去、我想說髒話)

    信審機器人

    業內對客戶的資訊稽核一般都是透過人工打電話校驗,現在也有些產品能透過讓客戶答題的方式自動對地址類資訊做驗證,我司要出一款信審機器人~它功能更完善~吸取了競品的優點、改進了競品的缺點... (不敢透露太多)

    對話管理的實現這塊主要是我和王燦做的,包括:webservice、知識圖譜、語義計算(比如使用者說他是做麵包的的,則需要把他歸一化到西餐廚師)等等。主要就是一些深度學習、語義增強、距離度量(cosine、word mover‘s distance等)等方面的東西。(不敢透露太多)

    智慧營銷

    用人工智慧輔助做營銷。

    我做了:觀點分析模型,從電銷與客戶的通話資料中抽出使用者對各產品/活動/優惠/風險等方面的觀點,如客戶A對體驗金不感興趣、對滿減券感興趣、擔心P2P跑路、對養老產品感興趣 等等,可以用來做使用者畫像、精準推銷等。

    技術:挺傳統的、其實就是個情感分析模型,一部分是粗粒度的判斷情感極性、一部分是細粒度地抽出實體詞及態度詞,基於 依存句法 和 業務 寫規則->統計->寫規則......而且,口語對話中存在大量的間斷、重複、顛倒使得依存分析的召回低的可怕...

    智慧客服demo

    hackathon時,做了個智慧客服toy,詳見這裡:做個聊天機器人/智慧客服,木想到還賺了三千塊錢、並且當做demo掛在了團隊的網站上。

    NLP基礎服務

    做了個簡單語義相似度模型、綜合使用了統計NLP和Deep NLP、懶得寫詳情了、配了個簡單的web demo掛著團隊主頁、等待有需求的業務方來定製。

  • 中秋節和大豐收的關聯?
  • 現在的有些電影為什麼不好看了?