Guillaume Coqueret：金融學監督學習技術綜述

首頁>財經>首席數字官2020-12-18 17:21

Guillaume Coqueret：金融學監督學習技術綜述

文丨張齊齊編輯丨秦麗

2020年12月12日，“2020中國數字化年會線上論壇”之【法國里昂商學院全球商業智慧論壇】圓滿舉行。論壇聚焦世界領先的智慧商業運營，並就智慧製造、數字化轉型過程中的創新技術、相關管理學前沿理論與實踐的問題展開深度交流。

一、信用評分

信用評分是銀行或金融機構的要求或需求，因為其業務是貸款給個人或公司。信用評分流程十分複雜，必須確保在為個人或公司批准貸款時，所提供的服務和所面臨的風險相匹配。為了實現這個目標，需要分析有關借款個人或機構的大量資料，也需要收集大量資料。例如，對於個人而言，包括個人的年齡、薪資、財富狀況以及關於以前貸款歷史的大量資料，比如這個人是否按時還款、是否曾經拖欠還款、違約歷史記錄情況如何等。對於公司來說，也是如此，但是可能需要訪問其他型別的資料。例如會計資料，公司的營業收入、債務情況、財務比率等，需要評估申請貸款的公司實體的總體狀況。這代表了大量資料，所以運用監督學習背後的理念是自動化以及定量挖掘資料，從而協助瞭解概況和風險。

例如，Kaggle上的資料集。 Kaggle是一個網路平臺，提出機器學習領域的挑戰，並且至少存在一個與信用評分有關的挑戰。使用者登入Kaggle平臺，就可以訪問資料，檢視在機器學習中使用的資料型別。每個人拖欠還款的歷史，即該人員是否拖欠還款90天以上，以及該人員在以往貸款乃至當前貸款中的表現的資料都展示出來。每行資料都代表一名客戶，所有列均為客戶的特徵。然後，使用這些資料來嘗試構建演算法，以確定是否要向新客戶或現有客戶授予貸款。

如果授予貸款，採用何種利率同樣重要。該演算法的輸出之一通常是違約機率或給定違約損失，這是該行業常用的經典KPI。這個過程很簡單。首先要擁有大量資料，或者可以獲取外部資料，據此可以構建一系列演算法或一個演算法。有了新客戶或新資料，就可以豐富資料庫，可以用來決定是否要向某個特定客戶貸款。如果概況資料不匹配，則拒絕貸款；如果概況資料匹配，則批准貸款。

信用評分領域存在哪些問題？就這些技術而言，就像機器學習中經常出現的情況，偏差是一大問題。要確保自己的演算法是公平的，不會導致性別、種族或其他歧視。另一點則是可解釋性，因為在機器學習中，工具猶如黑匣子。若想準確地瞭解演算法在做什麼，為什麼會做出某個特定決定，需要求助於其他型別的工具，包括可解釋的AI工具。而同時，AI工具大量存在，必須能夠理解演算法在做些什麼，理解為什麼計算機或演算法會做出特定決定，這一點至關重要。

二、欺詐檢測

欺詐主要分為兩種型別。第一種欺詐很明顯，即一家金融機構（例如銀行）遭受欺詐，可能是由於駭客攻擊，或人們丟失了信用卡，而壞人利用信用卡進行線上購買，或從銀行賬戶中取走資金。這種情況會導致客戶不滿意，金融機構也希望對抗欺詐性的資料使用者。第二種欺詐是報告欺詐，這種欺詐不常見。報告欺詐指無論是否自願，公司產生存在錯誤的文件，可能是會計文件或行政文件。如果並非自願產生，那只是錯誤；如果是自願產生，那就屬於真正的欺詐。這種情況很糟糕，因為有時其他人可能會使用這些文件來做出重要決定，例如投資決定。

就像信用評分一樣，為了進行欺詐檢測，需要交易資料，因為通常與交易有關，包括交易的性質、明細和特徵。其中包括客戶資訊，例如年齡、學歷、賬戶餘額、所在地點、最近的交易歷史記錄、交易型別、是否使用信用卡、是否線上購買、是否透過支票支付、交易發生地點、金額等等。

對於每筆交易，都可以獲得大量資料，根據這些資料構建一個演算法，嘗試確定某項交易是否是屬於欺詐。一種簡單的方法是確保一切順利，即當前交易與過去交易類似。對於第二種交易，檢測報告交易中是否存在欺詐的一種方法是求助於文字分析。可以嘗試簡單的文字挖掘，有時簡單精確，例如根據數字頻率。如果更有經驗，則可以採用更復雜、更深入的工作，例如自然語言處理。

在這種情況下，道德問題較少，由於我們要避免欺詐，因此總體是合理合法的。但有一個重要的技術障礙，即擁有和收集的資料非常不平衡。在銀行的所有交易中，只有極少數屬於欺詐，因此在所有資料中，實際上只有很小一部分有用，包含大量資訊。這造成一定程度的技術障礙和困難，但同樣也有很多方法可以規避或解決這些問題。

三、資產分配

如今我們能夠訪問很多資料，實際上資料已經是理財行業中的業務。與公司開展業務時，會獲得很多資訊，包括公司特定資料，包括彭博、湯森路透以及類似的資料運營商報告的會計資料。此外，最近出現的新話題是替代資料，包括情感資料，透過自然語言處理計算，從社交媒體中提取資料。因此，在直播公司活動時，可以看到公眾對公司新聞、公告、收益以及類似情況的反應。還可以訪問市場上的高頻資料，如果從事特定市場，高頻可能意味著非常高的頻率，例如毫秒級別。如果想嘗試預測宏觀經濟水平將發生的情況，也可以在複雜模型中納入宏觀經濟變數。

還有其他一些型別的資料，超出上述範圍。例如，衛星影象可以用來檢視中東港口、輔助石油行業的工作；檢視沃爾瑪和超市停車場的衛星影象，瞭解人們是否外出消費；透過超市的信用目錄試圖瞭解消費者的消費習慣和趨勢；企業可以預測會發生什麼情況，並以某種方式嘗試從中產生利潤。因此，資料獲取領域前景廣闊。

以上是人工智慧和監督學習技術在金融行業中的一些用例。金融行業中的機器學習是一個正在蓬勃發展的研究領域，相信未來將會有更多研究成果出現。

最新評論

∧ 神秘買家6億元拍走，樂視大廈究竟歸誰？

∨ 市場熱點輪動，機會如何把握？

熱門排行

劇多

Guillaume Coqueret：金融學監督學習技術綜述