首頁>科技>

之前,有同學約稿寫推薦方面的書,起初花費很大精力在弄,後來因為工作問題,沒有太多精力來繼續寫,所以把之前寫了的一部分發出來,品質一般,大家看就好啦,輕噴


行業背景

2018 年,全球網際網路產生 33ZB 的資料,如此大的資料量,如何去收集, 或者換個問題,在如此海量的資料中,如何選擇我們想要的?在本章中,作者 會描述網際網路公司從三個維度去收集資料:一、行為維度,即網際網路行為中, 使用者活動資料,使用者與 Item 之間的互動資料,也包括互動行為產生的上下文 資料,如網路情況、地理位置、時間等等;二、使用者畫像維度,即描述網際網路 中,描述使用者差異的資料;三、Item 維度,即使用者產生行為的載體、它可以是 電商網站中的商品、視訊網站中的視訊、抖音 APP 中的短視訊,也可以是音 樂 APP 中的歌單;

1.1 行為資料獲取: 埋點

埋點學名叫事件跟蹤,對應英文為 Event Tracking, 是指通過技術手段在 網站、APP 中特點流程收集一些資訊,用來跟蹤應用使用情況,後續用來優 化產品,比如個性化推薦、統計頁面操作行為等;

1.1.1 行為埋點目的

行為資料的埋點時資料業務的基礎準備工作,只有在收集到一定資料之 後,相關的資料業務才有支撐,通常業務埋點主要會關注以下幾個方面:

1. 行為資料:互動時間、互動位置、互動 Item、互動型別、互動停留時間 等等;

2. 品質資料:瀏覽器或 APP 頁面瀏覽情況、是否出錯、出錯除錯資訊; 3. 上下文資料:使用者瀏覽 Item 的時間、網路運營商、裝置型別等資料; 基礎的資料通過埋點獲取後,通過基礎的統計工具,可以得到 APP 某個頁面 PV、UV 統計,某個頁面轉化率、頁面入口等,使用者平均時長;還可以通過解析埋點日誌,統計某些場景的點選、收藏等行為資料,建立點選、收藏模型, 給使用者提供提供更感興趣的內容,提高使用者粘性。

1.1.2 如何行為埋點

埋點聽著簡單,其實要完成好相應的工作,時〸分複雜的,通常會根據業 務場景的不同選擇不同的埋點方案,埋點的主流有三種方式:

程式碼埋點;程式碼埋點是指工程師講埋點邏輯結合到程式碼中,能夠識別用 戶客戶端的額各種操作,然後組裝成訊息列表,傳到後臺落地到日誌;視覺化埋點;視覺化埋點可以說是一種自動化的程式碼埋點,它簡化了埋 點邏輯,可以直接通過互動行為完成埋點的自動化生成,並且由於內部 已經整合採集邏輯,埋點部署客戶端可以做到試試生效;全埋點:全埋點也稱“不埋點”,將頁面所有的互動行均進行採集,其優點 在於能夠採集所有資料,能夠滿足後期需求,缺點是採集資料量很大,通 信成本高。

三種埋點方式各有優缺點:全埋點能夠採集非常多的資料,適合頁面邏輯 比較少的場景,一次上線後,後期不需要頻繁進行埋點優化,視覺化埋點適合 頁面邏輯簡單,可頻繁新增埋點項的場景,其埋點邏輯容易被窮舉,能夠簡單 被複制且不需網站或 APP 更新;程式碼埋點缺點比較明顯,因為需要工程師開 發,且需要網站或者 APP 版本更新,會花費更多資源,但是程式碼埋點靈活性 更高,可以自定義採集時間,如頁面停留時間、頁面瀏覽路徑、音樂播放市場、 使用者瀏覽軌跡等等;

1.1.3 收集哪些資料

採集資料和業務場景強相關,通常有業務人員整理需求,產品經理理解, 格式化為指標,工程人員通過指標來統計相應資料完成統計工作,常見的資料 包括:

基礎行為統計:如在電商場景中,訪客曝光、瀏覽、點選/收藏/下單/評 論某 SKU 統計,這類是基礎指標,不但可以統計使用者維度的行為,後期 還可以統計到 SKU 維度,如 SKU A 曝光/瀏覽/點選/收藏/下單/評論 使用者數,也可以後期經過處理,得到是否使用者感興趣的正負樣本,訓練 點選率預估模型;停留時長:頁面停留時長資料,表明使用者在某頁面或者一次 session 的停 留時間,如在 feeds 流場景,目的為了提升使用者沉浸式體驗,增加使用者消 費時間,達到商業變現的目的,因此,頁面或者 session 停留時長會成為 很多優化迭代評判的核心指標;瀏覽軌跡:在電商場景中,商品瀏覽軌跡的資料採集〸分重要,在使用者瀏 覽過 ItemA、ItemB 之後,再去瀏覽 ItemC,甚至主動行為去瀏覽 ItemC (如通過頁面內搜尋工具)這部分資訊在 session 對話裡面蘊含很多資訊 量,已有相關團隊在利用 session 內瀏覽情況,預測使用者下一步感興趣 Item;元資料:元資料在上述採集資料均會使用到,包括使用者、頁面、時間均 被唯一標記,如使用者 ID、cookies,頁面通常會根據頁面內容自動化生成 ID,另外還包括裝置基礎資訊,時間戳,瀏覽網路環境(Wifi 或者移動 流量),等等;

以上簡單描述了在企業界,資料埋點的一些基本情況,算作淺嘗則止,一個合 理的埋點場景需要前端、後臺、UI 設計、產品經理協同作業完成,本身是一 個特別複雜的事情,本身涉及技術深度可能有限,但是擴團隊的合作,需求的 整理〸分複雜,這裡不做深究。

1.2 使用者畫像

使用者畫像是每一個數據系統都必須要做的,是理解使用者的關鍵,使用者畫 像一般有兩種:User Persona 和 User Profile, 前者是一些基礎的標籤集合, 後者是通過使用者的行為挖掘合適的標籤,來標著使用者在行為上的特質。User Persona 包括基礎的社會屬性標籤,如年齡、性別、教育程度、居住城市等等; 如百度百科中描述著名音樂製作人『高曉鬆』:

在自有的推薦系統架構中,也必須要類似的邏輯,假設公司新開發一款 APP,專門做電商潮品,取名『好東西』(虛構),首先我們面對的問題就是如 何描述『好東西』的使用者群體,

1.2.1 第三方提供與使用者自主行為標註

『好東西』APP 第一次開啟時,會提示你授予地理位置許可權、wifi 許可權等 等,接受之後,地理位置會,在登入介面,可以直接選擇使用微信登入,在用 戶授權『好東西』使用使用者微信資訊後,後臺會根據微信提供的 API,拉取用 戶的基礎資訊:

{"openid": "OPENID", "nickname" : "NICKNAME", "sex": "1" , "province": "PROVINCE","city": "CITY" , "country": "COUNTRY" , "headimgurl" : "http :// xxxx" , "privilege" : ["PRIVILEGE1" "PRIVILEGE2"], "unionid" : "o6_bmasdasdsad6_2sgVt7hMZOPfL"}

這樣你就可以拿到基礎的使用者的資訊,包括性別、居住城市、省份、國家 等等基礎個人資訊,經過使用微信登入過,『好東西』會要求實名制登記,可選 擇『身份證驗證』或者『手機號驗證』,選擇身份證後,可以按身份證前 6 位 識別出生地、中間 7 位識別使用者出身年月日,手機號,可以識別使用者使用運營 商網路。完成驗證之後,『好東西』會有一些引導頁面比如你的身份「辣媽/小 年輕/中年大叔」,感興趣領域等等來引導你互動出你的一些興趣特徵,如感興 趣的領域為網際網路科技、手辦等等。終於,完成了這些,你進了 APP,而這個 時候,後臺也已經拿到你的一些基礎資訊,完成基礎畫像的描述。

1.2.2 資料探勘

經過上一章節後,基礎的資訊被儲存下來,用來給使用者做推薦,但是存在 至少以下幾個問題:

基礎標籤覆蓋率問題:不是所有使用者都會通過微信登入,其他登入情況 下缺少對基礎標籤的採集。因此會導致大部分標籤由於選擇登入方式的 不確定性而缺失,缺失的標籤,影響了我們對使用者畫像的刻畫;標籤錯誤問題:標籤由於來源的不確定性, 如微信基礎資訊本身資訊 的不完整性,以及使用者主觀的因素,會產生很多錯誤:如出生年月日為 1900.01.01 這種,錯誤的標籤對整體使用者畫像的刻畫影響很大,當這類 錯誤資訊佔比很大時,極有可能影響整體使用者畫像的刻畫,因此,錯誤 的糾正需要在儘可能的去糾正;基礎標籤擴充套件:基礎的標籤構建的使用者畫像有限,通常需要擴展出其他 資訊:如好東西 APP 作為一個推薦好物的 APP,尤其在主打年輕人用 戶,對於科技宅、美妝使用者,可以擴展出科技宅男、美妝辣妹等標籤來表 徵特點使用者;行為特徵挖掘:以上大部分都是從使用者基本屬性、基本標籤來擴充套件使用者畫像,而從行為特徵也可以挖掘很多使用者的特徵,如男性偏向於瀏覽、購 買科技商品,女性使用者更偏向於美妝等商品;

使用者畫像無論從服務於使用者還是後續商業變現,都對“好東西”APP 至關重要, 使用者畫像的挖掘涉及到更多包括資料探勘、機器學習、心理學相關的知識,本 章重點關注資料採集的工作,這塊會在後續詳細說明。

1.2.3 如何評估

如何評估使用者畫像的好壞,是一個〸分複雜的問題,本身畫像的好壞就很 難資料定義。資料的經驗告訴我們,單純靠技術手段來評估不現實的,需要一 個詳細的畫像評估流程監控,來保證使用者畫像構建的好壞:

使用者畫像開發過程中,無論在有來源的基礎標籤上,如出生年月,還是 資料探勘擴充套件的標籤,如科技宅男、美妝辣妹等標籤上都要設計合理的 評估指標,這類指標包括,標籤挖掘的 Recall、Pecision、F1 曲線、AUC 等,還包括基礎標籤挖掘的覆蓋率、錯誤率等等,做到畫像維度有基礎 的監控指標來描述;使用者開發完成後,需要對各個使用者維度做基本的抽樣檢查,如設計各種 調查問卷來對系統的使用者畫像做基本的對比驗證;設計基礎的可互動式 頁面,對使用者畫像進行展現,安排合適的人力,來進行小規模人群的驗 證,如團隊內部畫像的準確性;使用者畫像在為演算法業務提供資料接入時,應該完成基本的 ABTest 校驗, 區分不同人群接入不同種子商品的流量,對於如轉化率、ctr 的指標;使用者畫像接入或新增維度接入演算法前後,也要完成 ABTest,對不同品類 的商品統計基本指標進行分析,使用者畫像是否能正向提升指標;使用者畫像接入之後,還可以按照不同標籤維度進行使用者人群的劃分,通 過對其人群商品行為的分析,是否有明顯的行為區分,通過行為的分佈 來驗證畫像的品質;1.3 Item 元資訊獲取

Item 畫像相對於使用者畫像會有更豐富的資料來源,Item 畫像用於理解推薦的時什麼,商戶對何種行為感興趣,在好東西 APP 中,Item 資訊有以下來 源:1,商戶自助登記;2,爬蟲爬取商品關鍵資訊;

1.3.1 Item 基本屬性

商品的基本屬性,如分類、標題、售價、商家等基礎資訊,首先可以通過 商戶登記,拿到基本的資料,這部分資料同樣會遇到和使用者畫像相同的問題, 如標籤缺失、標籤體系不準確等等,類似的處理在這裡不再重複描述,Item 信 息很多來源於普通的 UGC 內容,如各種帶有 SEO 手段的標題“XX 小飯鍋, 小巧可愛,兩個人吃飯足夠了”等等,這類 UGC 內容,描述了很多 Item 相關 的基本屬性,例如品牌:XX,商品:小飯鍋,適合兩個人,可愛系等等,這 類標籤很難完成結構化處理,需要強大的自然語音處理,比如品牌的挖掘,需 要構建一套強大的商品品牌體系,然後對 UGC 問題進行分詞、詞性判斷、實 體提取等一系列詞法與語法分析,“XX 小飯鍋,小巧可愛,兩個人吃飯足夠 了”=>”XX/品牌詞小飯鍋/商品名小巧可愛/商品特點兩個人/其他吃飯/商品 用途足夠 /其他”。

1.3.2 可擴充套件屬性

Item 基礎屬性可以通過一些基礎標籤加上結構化文字的手段來處理,但 是還有一些屬性是〸分難結構化的。而這部分資訊〸分重要,例如某款安踏漫 威聯名球鞋,品牌為安踏,但“漫威”這個詞也對使用者有很大吸引力,這部分關鍵 詞有些來源於 Item 標題、有些來源於商品描述、甚至有些來源於使用者評論,這 部分資訊依賴於自然語音處理能力,通過對這些資訊源的收集,來挖掘關鍵詞, 並且將這些關鍵詞打到該 Item 上,如該款安踏漫威聯名球鞋,從標題上可挖掘 “漫威”、“聯名”、“球鞋”,從商品描述中可挖掘“休閒”,“球場”,“價效比”,“減震”,從商 品評論中可挖掘“好看”,“帥氣”,“舒服”,將每個 Item 打上類似的關鍵字,能夠有 效豐富 Item 的資訊量。如何提取有效的 Item 擴充套件屬性.

最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 谷歌地球專業版,讓你足不出戶暢遊全球各地,還可以看實地街景的