一直以來,金融科技(FinTech)的發展常被劃分為三個階段:
第一階段FinTech1.0是金融業內透過IT技術實現辦公電子化;
第二階段FinTech2.0是透過網際網路實現金融業務中的資產端、交易端、支付端和資金端的互聯互通;
第三階段FinTech3.0是透過大資料、雲計算、人工智慧、區塊鏈技術來解決傳統金融的資訊採集、風險定價模型、投資決策和信用中介等痛點。
由此可見,大資料風控作為金融科技FinTech3.0的重要落地場景,是大資料、雲計算、人工智慧等技術在金融行業風險控制領域的應用。這裡的風控領域既包含了銀行的信貸風險,也包含了保險業和投資業的各類風險,其中信貸領域的應用發展最為迅速,融資企業數量最多,各大金融機構也最為重視。
與傳統銀行風控模式相比,大資料風控所需資料量更大,資料時效性更強、資料維度更多、資料處理更快。為了應對這些問題,需要應用的新技術包括大資料採集和處理、機器學習、生物特徵識別、自然語言處理、使用者畫像等,其應用的場景也涵蓋了貸前准入、貸中審批和貸後管理幾個方面。
一大資料採集和處理
大資料採集和處理是大資料風控實施的前提,金融機構可以獲取的資料維度不涵蓋了海量網際網路資料、信用資料、合作資料、企業資料和歷史資料,透過大資料處理技術把非機構化資料轉換成結構化資料,進行清洗、抽取和轉換,以便於在此基礎上進行資料分析和各類新技術運用。信貸場景面臨最大的一個難題是技術門檻較高,一方面需要具有分散式計算叢集的架設經驗,另一方面也需要在分散式平臺上各類資料處理和分析工具的使用經驗。第二個難題就是資料難以獲取,以及獲取資料的質量和合法性問題。
二機器學習
首先是新演算法應用。透過將各類新型的機器學習演算法應用到信貸場景,一方面無監督演算法可以監測異常交易,控制欺詐風險和信用風險;另一方面有監督演算法構建和探索輸入變數和目標變數之間線性或非線性的關係,對客戶進行分類,以便於實施差異化風險策略。其次是線上學習。針對欺詐監測實時性較強的特點,線上學習技術次是線上學習。針對欺詐監測實時性較強的特點,線上學習技術透過對資料實時訓練,預測欺詐機率。隨著機器學習技術的發展,線上學習技術能夠監測識別出更加複雜的欺詐行為。最後是模型自主迭代。隨著資料維度的日益豐富,金融機構更加傾向於運用多級模型和策略進行信貸風控智慧化。這時,一旦輸入變數發生變化,就會影響到模型結果。模型自主迭代技術可以在保證模型輸出穩健性的同時,根據輸入資料變化調整模型引數,該過程不需要過多人工干預,極大提升了效率。該技術直接的應用就是自動決策引擎,以資料化、智慧化驅動自動審批。這方面最大的問題就是決策過程過於複雜,使得解釋性較差。同時,過於智慧化的流程設計使得該類方法的穩定性和泛化性較差,需要快速迭代。
三生物特徵識別
近年來,生物特徵識別被廣泛應用到信貸審批流程中,尤其是人臉識別、指紋識別、聲紋識別、虹膜識別等。從金融行業的應用來看,指紋識別應用最廣,超過了市場份額的一半。生物特徵識別應用的場景包括:遠端開戶、身份核驗、放款確認等。這方面技術性難題相對較少,更多的是資料隱私和資料安全問題。
四自然語言處理
自然語言處理包括語音識別和文字識別,與生物特徵識別相比,自然語言處理更進一步,具備了理解語言的能力。透過挖掘語音資訊、文字轉換後的語義資訊,可以輔助客服人員監測客戶情緒;與機器學習結合,可以在某種程度上替代人工客服,提供智慧語音機器人服務。這方面最大問題是語言和環境的複雜性,人類思維的跳躍性和語言的模糊性會增加語義識別的難度,進而造成錯誤的決策。
五使用者畫像
使用者畫像技術建立在海量資料維度的基礎上,根據使用者社會屬性、生活習慣和消費行為抽象出標籤化的使用者模型。對於金融機構來說,使用者畫像可以幫助企業從業務角度分析客戶,瞭解使用者特徵,控制使用者風險。使用者畫像技術通常與聚類演算法結合使用,透過系統的梳理使用者群體,分析惡意使用者的行為特徵,採取針對性的風控規則。這方面最大問題是使用者標籤的準確性,以及與關聯風控規則之間的穩定性。
一直以來,金融科技(FinTech)的發展常被劃分為三個階段:
第一階段FinTech1.0是金融業內透過IT技術實現辦公電子化;
第二階段FinTech2.0是透過網際網路實現金融業務中的資產端、交易端、支付端和資金端的互聯互通;
第三階段FinTech3.0是透過大資料、雲計算、人工智慧、區塊鏈技術來解決傳統金融的資訊採集、風險定價模型、投資決策和信用中介等痛點。
由此可見,大資料風控作為金融科技FinTech3.0的重要落地場景,是大資料、雲計算、人工智慧等技術在金融行業風險控制領域的應用。這裡的風控領域既包含了銀行的信貸風險,也包含了保險業和投資業的各類風險,其中信貸領域的應用發展最為迅速,融資企業數量最多,各大金融機構也最為重視。
與傳統銀行風控模式相比,大資料風控所需資料量更大,資料時效性更強、資料維度更多、資料處理更快。為了應對這些問題,需要應用的新技術包括大資料採集和處理、機器學習、生物特徵識別、自然語言處理、使用者畫像等,其應用的場景也涵蓋了貸前准入、貸中審批和貸後管理幾個方面。
一大資料採集和處理
大資料採集和處理是大資料風控實施的前提,金融機構可以獲取的資料維度不涵蓋了海量網際網路資料、信用資料、合作資料、企業資料和歷史資料,透過大資料處理技術把非機構化資料轉換成結構化資料,進行清洗、抽取和轉換,以便於在此基礎上進行資料分析和各類新技術運用。信貸場景面臨最大的一個難題是技術門檻較高,一方面需要具有分散式計算叢集的架設經驗,另一方面也需要在分散式平臺上各類資料處理和分析工具的使用經驗。第二個難題就是資料難以獲取,以及獲取資料的質量和合法性問題。
二機器學習
首先是新演算法應用。透過將各類新型的機器學習演算法應用到信貸場景,一方面無監督演算法可以監測異常交易,控制欺詐風險和信用風險;另一方面有監督演算法構建和探索輸入變數和目標變數之間線性或非線性的關係,對客戶進行分類,以便於實施差異化風險策略。其次是線上學習。針對欺詐監測實時性較強的特點,線上學習技術次是線上學習。針對欺詐監測實時性較強的特點,線上學習技術透過對資料實時訓練,預測欺詐機率。隨著機器學習技術的發展,線上學習技術能夠監測識別出更加複雜的欺詐行為。最後是模型自主迭代。隨著資料維度的日益豐富,金融機構更加傾向於運用多級模型和策略進行信貸風控智慧化。這時,一旦輸入變數發生變化,就會影響到模型結果。模型自主迭代技術可以在保證模型輸出穩健性的同時,根據輸入資料變化調整模型引數,該過程不需要過多人工干預,極大提升了效率。該技術直接的應用就是自動決策引擎,以資料化、智慧化驅動自動審批。這方面最大的問題就是決策過程過於複雜,使得解釋性較差。同時,過於智慧化的流程設計使得該類方法的穩定性和泛化性較差,需要快速迭代。
三生物特徵識別
近年來,生物特徵識別被廣泛應用到信貸審批流程中,尤其是人臉識別、指紋識別、聲紋識別、虹膜識別等。從金融行業的應用來看,指紋識別應用最廣,超過了市場份額的一半。生物特徵識別應用的場景包括:遠端開戶、身份核驗、放款確認等。這方面技術性難題相對較少,更多的是資料隱私和資料安全問題。
四自然語言處理
自然語言處理包括語音識別和文字識別,與生物特徵識別相比,自然語言處理更進一步,具備了理解語言的能力。透過挖掘語音資訊、文字轉換後的語義資訊,可以輔助客服人員監測客戶情緒;與機器學習結合,可以在某種程度上替代人工客服,提供智慧語音機器人服務。這方面最大問題是語言和環境的複雜性,人類思維的跳躍性和語言的模糊性會增加語義識別的難度,進而造成錯誤的決策。
五使用者畫像
使用者畫像技術建立在海量資料維度的基礎上,根據使用者社會屬性、生活習慣和消費行為抽象出標籤化的使用者模型。對於金融機構來說,使用者畫像可以幫助企業從業務角度分析客戶,瞭解使用者特徵,控制使用者風險。使用者畫像技術通常與聚類演算法結合使用,透過系統的梳理使用者群體,分析惡意使用者的行為特徵,採取針對性的風控規則。這方面最大問題是使用者標籤的準確性,以及與關聯風控規則之間的穩定性。