58同城業務涉及的場景眾多,隨著平臺的業務越來越廣,業務安全的責任和麵臨的挑戰也越來越大。本文將帶你瞭解58的業務風控所面臨的挑戰有哪些,面臨這些挑戰58是如何使用AI和大資料技術驅動風控落地的,並將深入到技術細節講解風控未知風險發現的實踐。
主要內容包括:
58風控業務的背景智慧風控架構設計未知風險感知總結和展望0158風控業務的背景58同城提供的是一種資訊分類服務,作為本地生活服務的入口之一,產品體系覆蓋房產、招聘、二手車、本地服務等行業,各業務條線不斷垂直化,並從線上向線下延伸,形態較為複雜。
資訊分類場景與電商交易相比,是一種低頻交易,如線下的買房買車等,並不是日常行為,賬號的信用積累和平臺約束對客戶來說偏弱,而部分業務的交易環節必須線上下完成,平臺難以獲取到完整的閉環資料,容易滋生黑產。
隨著專業黑產的行為越來越隱蔽,而防守方需要在強對抗中拿到主動權,攻防雙方都在不斷升級。通常意義上的風控安全主要指的是內容安全和業務安全,也就是圖上水面上的部分,今天的分享也講圍繞這兩個方面展開,那麼58平臺在這方面都會遭遇哪些風險呢,下面舉兩個簡單的例子說明。
① 違規引流
比如平臺上釋出的一個租房資訊,只看圖片以及提供的資訊,內容本身沒有問題,然而當用戶點選微聊與房東溝通時,問:“你好在嗎?什麼時候可以看房”,對方可能會回:“不常上”,然後丟擲一個聯絡方式或二維碼,把客戶引導到其他渠道,這個操作極有可能是黑中介的欺詐行為,有非常大的安全隱患。
② 內容違規
第二個例子,圖上是五張違規的圖片。由於可能涉及欺詐或是違規引流,多數平臺都不允許在圖片上打聯絡方式。58也一樣,規定了圖片和聯絡方式的標準格式,但是從圖上可以看到,從純色背景到自然背景,從橫向的文字到彎曲的、斜向的文字,說明欺詐手段是在不斷升級的。
整體來說,面臨業務複雜、黑產隱蔽性強、安全對抗性強三個挑戰,那麼如何能把主動權掌握在自己的手裡呢。
02智慧風控架構設計完整的風控體系,需要在風控基礎平臺上,進行資料的組織能力和演算法的識別能力的智慧化。
資料的組織能力,指的是資料的整合、再加工、以及資料流轉的效率,它決定了風險識別的上限,而演算法的識別能力決定了風險識別的基線。
演算法的識別能力,不是一個單一的模式,不同型別的風控場景,有相應的針對性的不同的識別方式,無法一概而論。
58智慧風控業務業務架構
為了更好支撐資料的組織能力和演算法的識別能力,58設計了三層業務架構,分別是大資料的技術平臺,業務支撐的支撐層,以及公共應用層,如下圖所示。
大資料平臺主要為上層的業務提供基本資源保障,如資料資源、模型資源、推理框架等。上面的兩層按行為安全和內容安兩個不同方向進行切分。
行為類識別對於支撐全站行為的應用,是非常核心的,主要包括資料中心、診斷分析中心、知識中心三個中心。
資料中心保證整體資料的相容性和時效性,提供任意時間週期、任意時間窗的資料獲取能力,目前每天的存取呼叫量在千億級,響應時長是毫秒級。
診斷分析中心為整個風控體系提供完善的資料研判能力,如線索獲取等,從而可以有效對風控策略或對使用者進行定性。58的風控場景是一個低頻非閉環的場景,較難客觀性判斷界定資訊的好壞,需要不斷提升對資訊或者使用者的客觀判斷的能力,比如說,在與黑產過程對抗的過程中,黑產的行為其實也是越來越隱蔽的,需要持續對識別能力進行最佳化。
知識中心是整個58風控知識的沉澱,將整個58的風控體系看成一個生態,其參與角色包括稽核,運營,資料分析,演算法工程師等等,在日常工作中會產出風控的知識,對其進行體系化表示和統一管理後,可形成多元化的知識型別。知識管道用於打通線上不同的資料流之間的相互的呼叫鏈,並保證多路資料來源的相容性。最後,透過知識管理形成工作的合力和知識積累,快速複用到未來的突發性風險中。
在三個中心的基礎上,行為類應用分為四個方面,風控策略自動化,反欺詐,反作弊,及賬號安全。風控自動化主要是持續完善構建一些較為通用的能力和模式,透過構建自動化感知、自動化識別、自動化評估能力,來實現自動化的對抗。後三個主要與業務相關度較大,不贅述了。
右邊的內容安全部分,主要是透過演算法解決影象、音影片類載體的問題,分為兜底的安全能力如黃賭毒, 業務的安全能力如廣告、吸粉類的問題。
應用層上的應用沒有通用的解法,需要具體問題具體分析,絕不能指望一類演算法解決所有問題。比如根據業務的一些管控力度去區分和平時期和戰爭時期,不同時期打法不同,如戰爭時期,就需要進行一些針對性的精準打擊。
03未知風險感知1. 如何感知未知風險
接下來是實踐的環節,介紹如何感知未知風險。這是一個很重要但是容易被忽視的環節。
如上圖,風控本身是一個對抗的過程,“1” 黑產發起攻擊到平臺發現被攻擊;“2” 平臺進行資料分析和調研,產生有效的攔截策略並上線策略;“3” 平臺開始防禦該攻擊到黑產發現攻擊失效;“4” 黑產重新嘗試新的攻擊方式併發起攻擊,它是一個迴圈往復的過程。
“1”是風險感知,“2”是風險識別,作為平臺方來說,整體目標是使“1+2”的時間變短,“3+4”的時間變長。但是“3+4”的長短不受控,最多是使用一些延時判定或是延時處理來稍微延長一下“3”,但是“1+2”對平臺來說可操作空間很大。大多數團隊把時間放在“2”也就是發現有效策略上,而忽略了環節“1”也就是風險感知環節,據統計,如果省略了環節“1”,那麼平均響應一個有效策略的時間會拉長六個小時。
2. 風險感知策略和識別策略的什麼區別
那麼風險感知策略和識別策略有什麼區別呢?下圖從五個方面解答了兩者的區別。
感知策略識別的是未召回(線上露出的風險,機器識別不了但是人是可以判斷的,主要由於黑產使用者的行為側或者內容側發生了比較大改變)及未定義(人和機器都無法進行判斷,是一類新型問題,需要業務線重新定義標準,把他納入已知範疇,或者確認這類事務無需召回)的問題,更關注召回的覆蓋性和抗噪性,不管風險轉移還是透過行為改變改進攻擊策略,都應能有效識別,時效和準確率要求都不高,而風險識別策略主要解決未召回的問題,要保證策略可解釋性和精準度,時效要求較高,一個好的風險識別策略,只需要召回特定風險即可。
感知策略不是直接由機器處理的,它應該是指導下游決策,便於真正識別策略的產出;而一個好的識別策略就應該能召回儘量多應召回的內容,如果一個策略召回了不是該模型想召回的結果,就不能說是一個好策略。
風險感知模組的技術架構如下圖所示,分為三層:資料層、風險召回層、風險發現層。
資料層負責整體資料的結構化、外部資料的特徵補全及明細的落地儲存,便於上層計算使用。
風險召回層是整個未知風險感知框架的一個核心部分,面對不同的風險問題,會使用不同的感知能力進行挖掘,分為常規風險和突發性風險。在識別之前,需先判斷問題型別,一般常規風險檢測可細拆為群體性風險、獨立性風險,或是從已知問題變異成未召回問題的變異性風險等。右側的異常波動檢測,主要是針對持續發生波動的風險進行檢測,最終注入疑似風險池裡,在發現層進行提純。
風險發現層一般對不同型別的風險檢測後,會形成諸多碎片化的風險,透過一些演算法進行關係拓展的二次計算。
3. 風險召回層的兩種檢測方式
常規風險檢測
對於常規檢測的聚類、離群檢測,58選用了patchwork網格密度和孤立森林的方案,patchwork的好處是對於任意分佈的問題有很好的聚合能力,並且可以有效地過濾一些噪聲,並且它計算複雜度是線性的,可以支援大規模的平行計算。而孤立森林也是線性複雜度的演算法,主要是用來發現未定義的問題,並且有比較好的識別效果。
在未召回問題的處理方面,我們使用PU learning演算法進行召回,它由三個集合組成,P集合(確認的異常資料,即正樣本集合,)、U集合(海量未標註集合)和RN集合(正常資料,即確認的負樣本集合)。演算法的透過挑出RN集合,最終獲得疑似風險,也就是U-RN,主要處理流程是透過標註過的P和U集合進行集合的一些訓練,在P集合中挑選一些間諜樣本劃分到U集合,進行分類訓練,找到間諜樣本最小的閾值,用這個閾值挑出U集合中的負樣本,放在RN集合中。該演算法透過挑出RN集合,對於想發現異常的未被召回的問題,疑似風險就是U集合-RN集合,這就是對於未召回風險的一個識別。
異常波動檢測
未知異常波動檢測在業務場景較多,流量較大的情況下,面臨兩個問題,一是如何感知到波動,二是如何定位到原因。比如某時刻流量瞬間爆發了,超過上下限的閾值,對於這種情況,設定一個波動報警,演算法方面選擇Prophet(波動檢測) + HotSpot(根因分析)搭配使用,前者用於動態閾值調整和波動預測,後者用於根因分析,定位到問題具體是由哪一個維度的指標產生的。
整個流程是這樣的,我們已經有了一套較為通用的監控指標,在對全域流量進行分析時,用Prophet演算法進行實時預測,如果在某一時刻超過了閾值,需要給根因分析模組傳送指令,根因分析模組接收到指令後,就會去拿到前幾分鐘的時序資料,包括一些交叉驗證的因子、預計值和實際值一併輸入給HotSpot,最終算出具體的根因的子維度,並且把這個資料匯入疑似流量池裡。
簡單介紹一下這兩個演算法的特點,為什麼用這兩個演算法做技術支撐。首先facebook的Prophet演算法目前在監測實時預測的應用已經比較廣泛了,在實時預測這方面,對資料的缺失、異常值等有很好的適應性,不需要資料標註就可以進行資料預測,相對於其他的持續預測的演算法,總體的擬合效果也是非常好的。
多維的根因分析,主要面臨兩個挑戰,第一個是如何度量和表示根因,HotSpot的POTENTIAL SCORE可以排除掉波及性的因素,很好地度量根因的獨立性。第二個是解決空間搜尋過大的問題,HOTSPOT演算法內建了蒙特卡洛樹搜尋,還內建了層次剪枝的方法,提升了搜尋的速度。因為它解決了多維度根因分析的定位問題,並且演算法的精度和速度都符合我們對於風險感知的要求。
因為這兩個演算法都滿足了異常波動檢測對精度和速度的要求,因此選用這兩個搭配使用。
04總結和展望今天給大家介紹了三個方面,整個58風控的背景,風控架構的設計思想,以及未知風險感知的一個實踐。
首先,針對58的業務特點、資訊保安的特點,講了兩個例子,引出了58風控面臨的一個挑戰,較高的業務複雜性,較強的動作隱蔽性以及攻防的對抗性。
其次,智慧風控架構的理論部分,強調了資料的組能力和資料的演算法的識別能力,它們是同等重要的。資料的組織能力代表了風控識別的一個上限,演算法識別代表了風控安全識別能力的基線。
在風險感知環節。介紹了為什麼要做風險感知,其重要性以及整體設計思路。講了58在常規檢測,波動檢測,還有風險發現環節的做法。
最後,做一個簡單的展望,後續資訊保安智慧化工作可以在使用者行為預訓練模型,基於強化學習的風控引擎方面做一些投入。作為集團的資訊保安中臺,需要在上百條業務線上做風控的治理,挑戰是非常大的,但是不同的業務場景的作弊有一些相似的模式,所以後續會針對黑產的作業模式構建一些通用的訓練模型,在一些新的場景中進行復用和微調,以達到新的業務場景和風控能力的快速部署的目標。