回覆列表
  • 1 # 歷歷萬世

    1.背景介紹

    在大資料自動化審批實踐中,信用評分技術已經是一項逐漸成熟的風險估值方法。在消費金融的風險控制實踐中,信用評分卡模型已經得到廣泛地應用。

    何為信用評分卡?

    今天我們向大家展示如何來構造一個銀行業普遍使用的信用卡評分模型。這裡我們使用的資料是國際上鼎鼎有名的data比賽Kaggle上的資料集:Give Me Some Credit ,一家德國銀行的信用卡客戶歷史資料。整個資料集上有超過10萬條客戶資料,資料量的龐大也為模型的準確度提高了保障。Kaggle大神Zoe已經給出了一個龐大且系統的完成程式碼集,我們這裡則簡化很多,以期能夠管中窺豹。

    一個完整的信用卡評分模型主要包括以下幾個部分:

    資料處理、特徵變數選擇、變數WOE編碼離散化、logistic迴歸模型開發評估、信用評分卡和自動評分系統建立以及模型評估。

    2 資料預處理

    說句實話,這一步很繁瑣。任何一個統計分析的過程,資料的預處理佔據了7層甚至更多的時間。可以第一手的資料總是雜亂無章的,無用的資料太多。一個不乾淨的資料會讓我們得到很多匪夷所思的結果。因此,我們還是乖乖地去|“清洗“資料。無奈清洗資料真實太熬人了,為了方便,我們索性就直接刪去了清洗資料這一步。。。

    現在你們看到的就是一個非常乾淨和清爽的資料。此處省略......字

    3 變數WOE 分箱處理

    特徵變數選擇(排序)對於資料分析、機器學習來說非常重要。好的特徵選擇能夠提升模型的效能,更能幫助我們理解資料的特點、底層結構,這對進一步改善模型、演算法都有著重要作用。 首先選擇對連續變數進行最優分段,在連續變數的分佈不滿足最優分段的要求時,再考慮對連續變數進行等距分段。

    針對不能最優分箱的變數,分箱如下:

    4 Logistic 模型建立

    假設顯著性水平設定為0.01,因此,我們構造的邏輯斯特迴歸模型是非常顯著的。對已經構建的模型進行驗證,ROC曲線和AUC來評估模型的擬合能力。

    從上圖可知,AUC值為0.85,說明模型的預測能力較好,正確率較高。證明了用當前這五個特徵,去構成信用評分卡的一部分分值是有效的,預測能力是較好的。

    5 信用評分卡模型構建

    實際上,評分卡模型構建一個最基本的要素就是基礎分值和翻倍分值。

    評分卡的引數設定:基礎分值+PDO(比率翻倍分值)

    基礎分值:設定為600分

    比率翻倍分值PDO: 20--每高20分好壞比翻一倍,好壞比為20。

    個人總評分= 基礎分+ 各部分得分

    Score = offset + factor * log(odds)

    總結

    在大資料自動化審批實踐中,信用評分技術已經是一項逐漸成熟的風險估值方法。在消費金融的風險控制實踐中,信用評分卡模型已經得到廣泛地應用。利用已有的歷史資料對客戶的信用狀況進行量化,這種量化的直觀反映就是信用的分值。透過對kaggle上的資料Give Me Some Credit的挖掘分析,結合信用評分卡的建立原理,透過資料預處理、變數選擇、建模分析預測等方法建立了一個簡單的信用評分系統。

  • 中秋節和大豐收的關聯?
  • 有在越南做獸藥生意的朋友嗎?越南獸藥行情怎麼樣?