網易大資料生態數量級巨大,且產品線豐富,覆蓋使用者娛樂、電商、教育等領域,並且APP活躍度高,積累了多維度的使用者行為資料。通過集團資料資產構建全域使用者畫像,旨在服務於域內眾多業務場景,同時也在探索外部商業化方案。今天藉此機會,同大家分享下網易在大資料使用者畫像中的實戰應用經驗。
今天的介紹會圍繞下面三點展開:
網易生態資料介紹使用者畫像中心分類網易使用者畫像實戰案例01
網易生態資料介紹
整個使用者畫像實踐經驗,都依賴於網易易數中臺,所以首先給大家介紹下網易生態資料情況。
1. 網易資料總覽
網易資料總覽特徵如下:
資料量超億級,每日上億級賬號活躍,可觸達同人;服務場景多,生態較為複雜,覆蓋多行業產品線,包括遊戲、教育、電商、泛娛樂等;優質使用者平均標籤覆蓋率達70%以上;提供包括但不限於參與人、流量域、位置域、關係域等主題域解決方案,即能夠封裝使用者畫像在主題域的通用化模組。2. 網易產品線豐富
網易產品線豐富,覆蓋從使用者娛樂、電商購物、教育、新聞資訊等各個維度使用者行為資料,APP活躍度高,涵蓋使用者群廣。專案組整體目標是通過集團資料資產構建全域資產使用者畫像,已應用於網易生態圈內眾多業務場景,同時探索產品化及方法論,服務於生態圈外部合作機構,進行商業化操作。
3. 全鏈路資料中臺產品矩陣
全鏈路資料中臺產品矩陣,包括底層日誌等資料來源層,資料平臺加工層,整體標籤的離線或實時加工、挖掘演算法及監控,以及上層業務應用,如智慧分析、增長運營、推薦搜尋等一系列業務層應用,組成了網易資料中臺產品矩陣。網易易數產品矩陣,為網易使用者畫像起著極為關鍵的支撐作用,尤其是資料標準體系、資料治理平臺等模組,很好的承載著使用者畫像落地和品質保障。
02
使用者畫像中心分類
首先介紹下杭研使用者畫像整體資料架構及落地情況,主要分為三部分:其一為基礎的使用者畫像,基礎標籤 ( 如性別、年齡 )、行為統計 ( 如活躍 )、興趣偏好及預測等標籤;其二為關係庫部分,即IDMapping;其三為主題域部分,即對地域、社交、搜尋關鍵詞等相關方面的工作。
1. 網易資料架構
網易整體資料架構底層與各個業務方進行資料交換合作,共同建立公共資料中心,以數倉為藍本進行架構。
中間層為使用者畫像中心:
使用者標籤的分類包括基礎標籤、行為標籤、偏好標籤以及預測標籤等,不同公司分類方法略有不同,如根據更新週期,分為靜態標籤 ( 性別等 ) 和動態標籤 ( 年齡等 );偏好標籤包括使用者的長中短期偏好等,預測標籤主要應用於廣告投放部分,例如遊戲達人,高價值使用者群等。關係庫主要是IDMapping,目前已經有較多的方案論和解決方案,例如多賬號的歸一用於後續的業務資料探勘工作,提升對使用者的識別能力。典型場景為兩個手機號對應只有其中一個有過註冊行為資訊,另一個沒有註冊行為資訊,但對於上層而言,應該打通他們作為同一個行為主體。關係庫主要包括同機網路 ( 同一裝置多個ID的關係 )、同人網路 ( 同一個人多個裝置資訊 ) 以及社交關係 ( 人與人之間的關係 ) 等。主題域主要包括地域資料、廣告資料、關鍵詞和知識庫方向,其中知識庫和圖譜資料,主要應用於網易域內外內容知識打通。頂層的應用場景包括增長運營、推薦搜尋、廣告變現、營銷系統、使用者反欺詐及內容運營等方面,對業務方提供全方位的服務,不侷限於單一應用場景。還有資料規範和資料管理部分,作為資料標準化,沉澱經驗方法論。
2. 網易使用者畫像構建流程
使用者畫像整體構建流程依託於網易易數中臺,搭建起完整的業務數倉體系,融合多方業務資料來源。經過多年的探索實踐,已經形成完整的使用者畫像體系,從資料層面到產品層面,逐漸打磨,提供標籤管理、監控、報表、演算法、開發及許可權管理,融合在各業務產品體系。諸如關係圖譜形成API的介面服務輸出各業務方;資料服務包括人群圈選、人群分析等運用於市場及運營團隊;特徵庫方面描述了使用者向量化的特徵相比標籤粒度更為細膩,適用於演算法團隊迭代開發。在此基礎上沉澱了多種資料應用,包括增長運營、廣告DMP、智慧風控等方面。
3. 網易使用者標籤
目前整體總標籤數達1000+,其中不包含單一業務行為資料。標籤分類如下:
基礎標籤,即對使用者的自然屬性描述,例如性別、年齡、教育背景、生活習慣 ( 早起晚起 )、地理位置 ( POI資訊 )、職業狀況 ( 所屬行業 )、經濟情況 ( 有車有房 )、裝置資訊 ( 手機、運營商等 )、會員資訊 ( 各業務方會員等級 )、衍生資訊。其中衍生標籤,如評估是否已婚,在原有的標籤體系下沒有此類標籤,但可以通過對多個標籤進行組合生成新的標籤,包括是否有小孩、30歲滿足某個條件等。行為標籤包括地域、廣告、搜尋、全域、播放、點選、評論、關注、收藏、購買等維度。偏好標籤包括出行購物、手機數碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財、遊戲競技、動漫影視、明星藝人等維度。預測標籤包括利用演算法等進行預測生成的標籤,包括是否出行,是否買車等等。另外,標籤的列舉值也相當重要,業務分析過程中很容易出現列舉值的偏差,不符合實際業務邏輯。除此之外還包括標籤間的衝突,例如年齡15歲,學歷卻是博士或者有小孩,策略類標籤是標籤領域較為有挑戰性的地方。
使用者標籤案例:性別。主要包括三種方案,其一為標籤傳播,根據使用者在各個業務場景,例如母嬰商品點選行為標籤等進行item標記,構建User-Item的興趣網路進行Graph Embedding,最後進行分類預測使用者的性別;其二為利用NLP演算法對使用者的暱稱進行語義分析;其三為利用業務屬性自行填寫的內容進行判斷,此處需要對資料品質進行過濾,排除諸如出生為1990-01-01的引數異常值資訊。基於上述的三類演算法特徵結果集進行模型的融合,然後對使用者的性別進行預測,同時判斷該使用者性別的準確率,大部分準確率在0.6+以上可以應用於實際業務場景中。當然除了常見的演算法融合,還包括資料融合、特徵融合等等。其中需要突破的地方包括特徵的稀疏性,因為IDMapping打通後的資料覆蓋率僅20%左右,這個嚴重影響了模型的整體效果。
4. IDMapping
IDMapping主要指使用者裝置的打通,用於識別使用者的唯一性,現今採用的手段有兩種,其一通過工程層面打通,如SDK埋點,優點是準確率較高,缺點是還會存在一人多機等現象,導致了不能夠較好地完整描述一個使用者畫像;其二指資料層面打通,通過ID關係網,採用規則和演算法結合的方法,進行同人識別,優點是很好解決一人多機現象,缺點是準確率難以評估。本次分享,主要指資料層面打通。
IDMapping整體的思路及方案,具體要結合各種賬戶、裝置之間的關係對,以及裝置使用規律等使用者資料,利用規則過濾+資料探勘演算法 ( 連通圖劃分及社群發現 ) 判斷賬號是否屬於同人。在IDMapping過程中,常遇到的問題及對應解決方案如下:
IDMapping的儲存方式包括兩個ID型別 ( 關係對 )、最近採集時間、最早採集時間、採集源資料、採集源列表、採集的頻次和週期。其中共線關係的部分增加了時間衰減係數,同步遞減應用於結果,同時也增加了某些引數的權重部分用於提高業務的可選性和高可性。
5. 地域主題域
地域主題域可以挖掘使用者的需求資訊,包括是否有車,是否經常去4S店,通過WIFI、裝置等資訊獲取親戚、同事等關係,通過IP可以捕獲學校的學生資訊,根據作息規律進行統計。當然除此之外,地域主題域還用於反欺詐領域,針對黃牛等使用者群進行修改地域引數資訊,規避系統檢測。
6. 使用者畫像管理與儲存
使用者畫像管理與儲存在網易大資料經歷了多次迭代,包括前期字串的拼接、手工標籤命名、明文關聯維表,再到現在利用JsonArray格式進行標籤型別管理,這種有個比較大的缺點,就是存在冗餘嚴重,正在嘗試新的方案設計。
7. 品質校驗與保障體系
網易標籤包含真實的使用者資料及特徵使用者資料,利用無監督的演算法模型預測姓名、年齡、有車、有房等,利用有監督進行提升資料品質,提升標籤的整體效果。主要包括三方面的工作:
利用實名認證資料,作為高可信的樣本集;利用強特徵使用者資料,通過GPS\\IP等使用者行為資料;利用外部資料,增加高置信使用者資料品質。除此之外,還包括利用一些常見的演算法,例如交叉驗證準確率和召回率,線上ABTest、演算法離線驗證、運營活動驗證、真實資料驗證等等方案。
品質保障標籤管理方法論,包括以下四點:
每個標籤定義第一責任人,用於快速響應業務需求,同時處理標籤異常問題;流程優化,標籤的流程較為漫長,需要了解業務、演算法、開發的全流程,利用端到端的模式,通過快速響應增加標籤規範化的評審工作;測試監控方面,測試在標籤上線前對標籤規範和品質輸出測試報告,預測則是針對規範、列舉值等範圍,建立監控預警機制;管理平臺化,則是標籤生產、加工、處理、應用全流程體系化、標籤化、工具產品化,不斷迭代升級。03
網易使用者畫像實戰案例
最後和大家介紹下網易使用者畫像實戰案例。
1. 應用場景豐富
網易使用者的多元化資料,能夠精準定位使用者,覆蓋範圍廣,包括但不限於以下業務目標場景:
市場營銷:為人群圈選、人群洞察等提升營銷價值;推薦搜尋:為網易演算法團隊提供資料輸入;增長運營:為使用者研究、資料運營等提供資料支撐;廣告投放:為廣告主提供人群定向投放功能;智慧風控:為營銷反欺詐,諸如薅羊毛、資金風險、異常使用者識別提供特徵演算法服務。這裡重點講解下營銷反欺詐薅羊毛案例,此類使用者資源池有限,通過頻繁地切換IP、WIFI等裝置資訊,規避風險。利用使用者畫像及其特徵,切入智慧風控,能夠提升6%的風險使用者識別率,同時結合知識圖譜、IP黑名單、異常裝置等方面的資料資訊,能夠較好地擴大資料價值。
2. 使用者畫像案例
通過覆蓋使用者出行、娛樂、裝置、購買、地址等維度資料,基於基礎標籤、事實標籤以及預測標籤等標籤,應用於上述提及的多個業務場景中。通過使用者畫像,可以知道使用者偏好,購買相關等偏好資訊。
3. 實時全鏈路推薦案例
網易使用者資料服務實時方案,打通各個業務場景的資料孤島資訊,實時融合使用者的資料資產,深度洞察分析使用者屬性資訊,支撐各個業務間資料打通和服務,實現了"採集+計算+呼叫"的實時全鏈路體系。例如,在冷啟動新客階段,利用使用者畫像能力,將離線特徵放進HBase中進行實時計算,在多業務場景進行交叉,全鏈路支撐各業務資料打通和服務,為業務方提供二次服務。另外,利用實時使用者畫像結合知識圖譜捕獲使用者行為軌跡,避免使用者流失後造成的無購買、點選等行為,進行二次觸達,增加業務轉化效率。
4. 總結
網易資料使用者畫像中臺顯著提高了資料生產力,逐步沉澱方法論和產品,賦能域內眾多業務場景,探索外部商業化解決方案。