大資料風控用了什麼模型？有效性如何？

首頁>Club>五分音2020-06-14 16:51

大資料風控用了什麼模型？有效性如何？

回覆列表

1 # 愛唱歌的韭菜哥

大資料風控模型主要包括：反欺詐模型、二元好壞模型、資產包風控模型等。其有效性主要包括以下三個方面：

1、有效提高稽核的效率和有效性：

引入大資料風控技術手段分析，通過多維度的資訊分析、過濾、交叉驗證、彙總，可以形成一張全面的申請人資料畫像，輔助稽核決策，可以提高稽核的效率和有效性。
2、有效降低資訊的不對稱：

引入大資料風控技術手段分析，通過多維度的資訊分析、過濾、交叉驗證、彙總，可以形成一張全面的申請人資料畫像，輔助稽核決策，可以提高稽核的效率和有效性。

3、有效進行貸後檢測：

通過大資料技術手段對貸款人進行多維度動態事件（如保險出險、頻繁多頭借貸、同類型平臺新增逾期等）分析，做到及時預警。

大資料風控同傳統風控在本質上沒有區別，主要區別在於風控模型資料輸入的緯度和資料關聯性分析。據統計，目前銀行傳統的風控模型對市場上70%的客戶是有效的，但是對另外30%的使用者，其風控模型有效性將大打折扣。

大資料風控作為傳統風控方式補充，主要利用行為資料來實施風險控制，使用者行為資料可以作為另外的30%客戶風控的有效補充。

2 # 三公子的事務所

目前大資料風控主要分為三類：

反欺詐模型

二元好壞模型

資產包風控模型

一、反欺詐模型

大資料風控只能用於小微資產（現金貸、消費貸、小微企業貸），而不可能用於基建、政信。對於小微資產，還款能力不是核心問題，主要風險是還款意願。因此目前市面上大資料風控90%的價值在於反欺詐。
反欺詐的大資料風控主要基於兩套工具：交叉驗證、聚類分析。

交叉驗證主要是由人工判斷規則，系統校驗是否符合實際情況。如通訊錄和通話記錄校驗、電商記錄校驗、裝置指紋校驗、多資訊源地理位置校驗。以現金貸產品為例，大多數現金貸產品的基礎風控邏輯就是兩個攝像頭，後攝像頭識別身份證，前攝像頭做人臉的活體識別，人臉對上身份證，就做好了反欺詐，之後就扔到二元好壞模型做評估。

聚類分析和交叉驗證的區別是，交叉驗證很多時候根據一些人工的規則，但是聚類分析主要是根據結果反向推導。比如通過歷史資產的履約情況，發現在19-25歲區間的人群風險較低、發現輸入地址時間比較長的人群風險較高、發現填寫收入在30000以上的風險比3000以下還高。有的規則最後可以通過邏輯解釋，有的規則最後根本也無法理解為什麼。但是如果一個新的進件，和之前的「壞客戶」比較相似，那麼他大概率是壞客戶。
以同盾為例，主要向資產、資金、支付、場景四方輸出反欺詐SaaS，提供：

交叉驗證工具

聚類分析報告

黑（灰）名單資料庫

二、二元好壞模型

二元好壞模型的核心價值是量化定價，包括授信額度、貸款期限、利率等。主要工具就是評分卡，先給使用者信用評分定級，然後不同級別不同利率。宜人貸分為ABCD類客戶，利率分別為17%、27%、34%、40%；Lending Club分為從A1-G5共35個級別，利率水平從6%到26%不等。（16年初資料）

至於貸款額度，一般隨行就市。

個人現金貸：小額現金貸以隨行就市為基礎，通過拍腦袋決定，在1000-5000不等。
個人消費貸：由於中國居民槓桿率較低，基本上3C、醫美、教育的資金需求都低於客戶授信額，因此直接使用交易金額就行。對於車貸行業，一般也是簡單分檔，30萬以上車稽核較嚴，10萬以下車分36期，客戶還款壓力也不大。

小微企業貸：目前大資料應用不多，主要因為小微企業造假動力強，基礎資料都難以確保真實性。目前小微企業還是以抵押貸款、法人貸款、供應鏈融資為主，信用貸主要還是依靠IPC方式通過線下業務員重製報表實現。電商類企業的風控模型基本上是根據流水的比例來。

三、資產包風控模型

上述都是基於單筆資產的方法論，但是從資產包層面的風控有不同的考慮。

假設還款是1，逾期是0，不同的客戶有不同的表現：
A：1111111111

C：0011011101

A是好人，B是壞人，這兩個問題沒有異議。很多時候，基於前兩種模型我們會認為C是壞人，但是從資產包層面，他提供了不菲的罰息收益。

此外，資產包的風控還要考慮不同資產的相關性，考慮優先劣後配比後的預期風險改變，考慮流動性的風險。

四、目前的市場格局和問題

第一個問題，長尾徵信公司的價值。

放貸市場是碎片化的，但是徵信服務提供商有規模效應，應當是集中的。也就是百融同盾兩家爭天下，芝麻信用、騰訊信用作為兩個資料庫對外輸出和輸入資料。

我搞不懂，在one or zero的市場環境下，為什麼現在冒出那麼多小的徵信公司，還拿到融資，商業價值在哪裡？尤其是像某些單一資料來源的徵信公司，我感覺被收購的價值都沒有，大公司不如坐等你死然後收編團隊？這個問題我沒有答案，向各位專家請教。
第二個問題，過擬合問題。

信貸是週期性的，大週期小週期一堆。科技也是有周期性的，學生貸火起來，所有公司幹學生貸，2年吃完整個市場，其他任何資產都面臨創業公司蜂擁而上的局面。

資料量有限的情況下，模型可能過度地學習訓練資料中的細節和噪音，以至於模型在新的資料上表現很差，這意味著訓練資料中的噪音或者隨機波動也被當做概念被模型學習了。而這件事，在市場環境發生變化之前可能沒有任何人知道。

第三個問題，系統性風險。

目前大資料風控應用最廣的是小額現金貸，因為他的資料反饋快（30天一反饋），因此比較容易做機器學習。市場上所有現金貸看下來，壞賬率約為4-8%，都是一開始8%或者更高，通過機器學習降低到4%左右。但這個資料其實意義不大，依然無法反駁復貸的擔憂：現金貸的借款人重複借款，本質上每個借款人都成為一個小的龐氏騙局池。就像當初和泛亞一起玩的經紀公司都盈利，但是最後還是免不了崩盤，過度相信科技和資料也許是金融領域更大的風險。

劇多

大資料風控用了什麼模型？有效性如何？

相關內容