用資料降低風險！資料驅動下的銀行風控模型如何構建和應用？

首頁>財經>人工智慧產業鏈聯盟2020-12-18 19:49

用資料降低風險！資料驅動下的銀行風控模型如何構建和應用？

風險管理是銀行業可持續發展的根本。銀行風險管理體系建設的目的在於保持資產質量穩定，將風險抵補能力始終控制在合理水平。

在當前經濟大環境下，銀行業務風險水平上升，金融行業進入強監管時代，各家銀行對提升自身風險防控能力的需求日益迫切，而銀行傳統風險管理體系缺乏靈活性、防控手段較為落後等弊端，與大資料覆蓋面廣、維度豐富、實時性高和人工智慧技術飛速發展的特點相呼應，使銀行風控成為大資料和人工智慧的熱點應用領域和方向。

目前，傳統中小銀行在將資料驅動方法應用於風控領域（尤其是貸後）仍處於起步階段，絕大多數還是依賴於專家經驗的業務規則，這些撒網式的規則準確率和召回率都不理想，尚不能滿足我們對風險防控的要求。因此，引入更多維度的資料，利用機器學習演算法深層挖掘資料規律，對完善銀行風險預警系統，提升風險防控能力，降低風險損失有著非常重要的意義。

銀行資料驅動風控模型介紹

1. 模型分類

巴塞爾協議定義了金融風險型別：市場風險、作業風險、信用風險。我們主要關注的信用風險模型一般包括申請評分、行為評分、催收評分和反欺詐，也就是常說的A（Application score card）卡、B（Behavior score card）卡、C（Collection score card）卡和F（Anti fraud score card）卡。

2. 資料構成

申請評分卡特徵項的組成元素主要有：

申請者的人口統計資料：年齡、性別、戶籍狀況、婚姻狀況、職業、學歷、申請渠道、證件型別、是否黑名單客戶、工作年限等申請者家庭財產、負債資訊：是否有自有住宅、是否有車、是否有消費貸款、是否有經營貸款、是否在其他金融機構有負債、個人收入、家庭年收入、收入核驗狀態等所申請的債項相關資訊：申請額度、產品期限、利率、貸款目的等銀行已有客戶在本行的資訊：銀行已有客戶在本行的資訊行內消費記錄、申請日前6個月諮詢次數、行內還款情況徵信資訊：正在使用的信用產品數、申貸日期前2年逾期次數、上次逾期距今月份數、人行數字解讀評分

行為 / 催收評分卡特徵項的組成元素主要有：

逾期類行為資訊：申貸日期前2年逾期次數、上次逾期距今月份數、當前逾期期數還款類行為資訊：還款情況、還款時長、已還款比例徵信資訊：正在使用的信用產品數、人行數字解讀評分債項資訊：貸款型別、貸款金額人口統計類資訊：年齡、性別、戶籍狀況、婚姻狀況、職業、學歷、申請渠道、證件型別、是否黑名單客戶、工作年限催收類資訊：催收次數、催收資訊反饋賬戶資訊：應用評分、行為評分、金卡/普卡、信用額度、自動還款、員工標誌、額度調整、收益率3. 模型構建的基本流程

模型構建一般由以下5個步驟構成：資料準備、模型設計、模型開發、模型評估、模型部署與監控。

（1）資料準備

資料準備是評分卡開發的初始階段同時也是耗時最長的階段，包括變數粗篩、資料匹配、資料處理、資料質量檢查、描述性統計等步驟。

變數粗篩：根據業務經驗，圈定需要選入的特徵變數，確定變數的取數口徑。資料匹配：根據客戶維一要素（如客戶號）匹配客戶各個維度的資料。資料處理：經過一系列轉換、處理將原始資料處理成可用作模型開發的格式化資料。資料質量檢查：檢查資料的缺失值。同時，從業務角度考察資料的完整性和準確性。描述性統計：檢視資料的基本統計資訊。對於分型別特徵，檢視該特徵在各類別的佔比以及各類別的違約機率。對於連續型特徵，檢視特徵的平均值、中位數、極值等，檢視資料的集中/離散趨勢。（2）模型設計

相關資料採集完畢後，下一步便是模型的設計。模型設計是評分卡開發的關鍵步驟。在這個過程中，我們將對資料進行初步分析，對整個模型開發的一些引數進行設計，整個模型設計的內容包括：模型細分、表現定義、表現期視窗、分類彙總、建模樣本選擇。

模型細分：可以考慮從產品/客群維度對模型進行細分，這樣做的好處一方面可以提升模型的效果，另一方面也更契合業務的需求。表現定義：定義好壞客戶，一般可以透過滾定率分析並結合業務場景確定。表現期視窗：圈定一個時間視窗並在這個時間視窗內完成好壞客戶的定義。分類彙總：排除項、被拒絕賬戶、壞賬戶、中間賬戶、表現不足賬戶、好賬戶、未開戶賬戶等各賬戶的數量與佔比。建模樣本選擇：在歷史資料中篩選出足夠數量的好壞樣本數構成建模樣本。（3）模型開發

模型的開發階段包含的主要內容有：特徵變數生成、欄位劃分、單變數分析、多變數分析、模型評估與驗證。這裡牽涉到的內容較多，就不展開一一闡述了。

（4）模型評估

評估模型能否達到預期的效果並確保模型的穩定性。主要評估模型的區分能力、穩定性、排序能力和評分分佈。檢驗一般分為樣本時間內驗證和樣本時間外驗證。

（5）模型部署與監控

模型有兩種部署模式：一是直接將訓練好的模型部署至伺服器，配置為一個模型服務。模型服務可供其他系統呼叫，實現線上預測。二是透過模型提煉規則並部署至決策引擎。模型上線後，要對模型的效果及穩定性進行持續監控，一般監控模型KS值及PSI值，前者代表模型區分好壞客戶的能力，後者代表模型在每個時間週期的變遷程度。

資料驅動評分卡的優勢

資料驅動方法的意義在於，當我們對一個問題暫時不能用簡單而準確（一般真實的原理都是簡單而準確的）的方法解決時，我們可以根據以往的歷史資料，構造出近似的模型來逼近真實情況，這實際上是用計算量和資料量來換取研究時間。得到的模型雖然和真實情況有偏差但是足以指導實踐。

——吳軍博士《智慧時代》

當前，隨著大資料以及資料採集、儲存、分析等技術的快速發展，幾乎所有公司都在儘可能充分利用資料來獲取競爭優勢。這個程序中，大資料也帶來了公司商務管理和決策的根本轉變，這個轉變被定義為資料驅動的決策，其概念表現為公司的管理決策儘可能基於資料和資料分析，而非是更多的依賴於業務人員的直覺和經驗。風控領域亦是如此。相對於傳統的專家評分，資料驅動評分有如下幾點優勢：

1. 資料驅動更為客觀

資料驅動評分卡的構建過程中，資料更為充分，每個環境都有相應的資料論證和統計分析。並且可以透過更為深層次的挖掘資料的內涵，提取出更為深入和準確的洞察資訊，降低了業務人員在決策過程中的介入和參與，從而減少個體因為經驗、情緒以及資訊不足而導致的偏差，使得評分更為客觀。此外，可以推想，更為客觀透明的評分機制也可能將得到更多人員的信任和支援，從而提升評分卡的效力和執行效果。

2. 資料驅動更適用於不斷變化的決策環境

外部經濟形勢變化、政策調整以及公司業務的變動都會對模型的效果產生影響。相較於傳統的利用專家業務規則的評分卡，資料驅動評分卡不僅引入了業務資料還將人口統計資訊、行為資料、賬戶資訊、外部資料納入決策範圍，使得資料評分卡在面對環境變化時有更為穩定的表現。同時，資料驅動評分卡可以實現自動化的更新，根據新的歷史資料調整各指標在模型中的權重，以達成對新資料更好的預測效果。

3. 資料驅動使個體更具區分度

“機器學習+大資料”的模式使得資料驅動評分卡構建出的模型更復雜也更具精細化。比如業內常見的資料驅動評分卡中，標準分為660分，好壞客戶比每翻一倍，分數增加20分。相對於專家評分卡，資料驅動評分卡中的客戶評分更為分散，這也意味著個體與個體之間更具區分度，業務人員有更大空間去制定精細化的應用策略。

參考：

https://www.iyiou.com/p/55066.html 蔣韜：銀行風險與智慧應用的深深與淺淺

https://zhuanlan.zhihu.com/p/36539125 玩轉邏輯迴歸之金融評分卡模型

https://www.zhihu.com/lives/1053679649619554304 黃志翔：網際網路金融信用風險模型大揭秘

薦：

【中國風動漫】除了《哪吒》，這些良心國產動畫也應該被更多人知道！

宣告

最新評論

∧ 神秘買家6億元拍走，樂視大廈究竟歸誰？

∨ 資訊：國華人壽成功發行2020年第一期30億元資本補充債券

熱門排行

劇多

用資料降低風險！資料驅動下的銀行風控模型如何構建和應用？