編譯:ronghuaiyang
導讀DeepMind和Google Play合作,推動了 Play Store 的發現系統的重大改進,為使用者提供更加個性化和直觀的 Play Store 體驗。
在過去的幾年中,我們把 DeepMind 的技術應用到了谷歌產品和基礎設施中,取得了巨大的成功,我們使用資料中心冷卻技術減少了大量的能耗,並擴充套件了 Android 的電池效能。我們很高興能與大家分享我們接下來的幾個月裡的工作。
我們與 Google Play 商店的合作我們知道,當用戶擁有他們喜愛的應用程式和遊戲時,他們就能最大限度地利用他們的手機,發現新的最愛是一件令人興奮的事情。在與 Google Play 的合作中,我們的團隊領導了與谷歌的合作,推動了 Play Store 的發現系統的重大改進,為使用者提供更加個性化和直觀的 Play Store 體驗。
每個月,有數十億的使用者來 Google Play Store 為他們的移動裝置下載應用程式,Play Store 支援了世界上最大的推薦系統之一。一些人在尋找特定的應用程式,比如 Snapchat,而另一些人在瀏覽商店,想看看有什麼新東西和有趣的東西。Google Play 的發現團隊努力幫助使用者發現最相關的應用程式和遊戲,為他們提供有用的應用程式推薦。為了提供更豐富、個性化的體驗,應用程式會根據使用者過去的偏好來推薦。然而,這需要非常細緻的進行區分 — 既要理解應用程式的功能,也要了解它與特定使用者的相關性。例如,對於一個狂熱的科幻遊戲玩家來說,類似的遊戲推薦可能會很有趣,但如果使用者安裝了一個旅遊應用,推薦一個翻譯應用可能比另外五個旅遊應用更相關。這些使用者首選項的收集和使用由谷歌的隱私政策管理。
我們開始與 Play store 合作,幫助開發和改進系統,以確定應用程式與使用者的相關性。在這篇文章中,我們將探索一些我們為實現這一目標而開發的尖端機器學習技術。今天,Google Play 的推薦系統包含三個主要模型:一個候選生成器、一個重排序機和一個針對多個目標進行優化的模型。候選生成器是一個深度檢索模型,可以分析 100 多萬個應用程式並檢索最合適的應用程式。對於每個應用程式,重排序機(即使用者偏好模型)會從多個維度預測使用者的偏好。接下來,這些預測是多目標優化模型的輸入,該模型的解決方案為使用者提供最合適的候選方案。
在現實世界的約束下應用機器學習
改善 Google Play 的推薦系統學習使用者的喜好,我們的第一種方法是使用一個 LSTM(長短期記憶)模型,這是一個在現實場景中表現很好的遞迴神經網路,因為它具有由於強大的更新和反向傳播動能力。雖然 LSTM 帶來了顯著的精度提高,但它也引入了服務延遲,因為 LSTM 在處理長序列時可能在計算上非常昂貴。為了解決這個問題,我們將 LSTM 替換為一個 Transformer 模型,它可以很好地進行序列到序列的預測,並且之前在自然語言處理方面取得了很好的結果,因為它能夠比其他常用的模型捕獲單詞之間更長的依賴關係。該 Transformer 在提高模型效能的同時,也增加了訓練成本。我們的第三個也是最後一個解決方案是實現一個有效的加法注意力模型,該模型適用於序列特徵的任何組合,同時具有較低的計算成本。
候選生成器去偏差我們的模型(稱為候選生成器)根據使用者從 Play store 中安裝的以前的應用程式來判斷他們更可能安裝哪些應用程式。然而,這可能會引入推薦偏差問題。例如,如果 app A 在 Play store 中顯示的次數是 app B 的 10 倍,那麼使用者就更有可能安裝它,因此我們的模型也更有可能推薦它。因此,該模型學會了一種偏差,即越是頻繁顯示的 app,安裝的越多。
為了幫助糾正這種偏差,我們在模型中引入了重要性加權。這個重要性權重是基於每一個獨立應用的開啟—安裝率與整個 Play store 的開啟—安裝率的中間值。安裝率低於中值的應用程式的重要性權重將小於 1。然而,如果安裝率高於中位數,即使是安裝頻率較低的“小眾”應用程式也可能具有較高的重要性。通過重要性加權,我們的候選生成器可以根據安裝率降低或提高應用程式的權重,從而緩解推薦偏差問題。
重排序推薦的改進推薦系統通常為使用者提供一系列的可能性,並以最佳或最相關的選項的順序顯示在頂部。但我們如何確保最相關的應用程式出現在列表的頂部,這樣使用者就不必滾動頁面,或可能錯過最佳選項?許多推薦系統將排名問題視為一個二元分類問題,其中訓練資料要麼被標記為正類,要麼被標記為負類,排名者僅從這個二元標籤就學會了預測概率。然而,這種“pointwise”模型,一次只對一項進行排名,不能捕捉到應用程式相和其他應用程式相關性的上下文。為了提供更好的使用者體驗,排名者可以根據其他候選應用程式的上下文來預測呈現項的相對順序。
我們的解決方案,reranker 模型,學習了同時顯示給使用者的一對應用程式的相關重要性。我們的 reranker 模型基於一個核心觀點:如果使用者在商店中同時看到兩個應用程式,那麼使用者選擇安裝的應用程式比他們沒有安裝的應用程式更貼近使用者。然後,我們可以為每一對應用程式分配一個正樣本或負樣本的標籤,而該模型試圖最小化排名中的逆序數量,從而提高應用程式的相對排名。這種“pairwise”模型在實踐中比 pointwise 模型更有效,因為預測相對順序比預測類標籤或安裝概率更接近於排序的本質。
優化多個目標許多推薦系統必須同時針對多個目標進行優化,比如相關性、受歡迎程度或個人偏好。我們將多目標優化問題表述為一個約束優化問題:總體目標是最大化主要度量的期望值,受次要度量期望值的約束。在線上服務期間,目標可能會根據使用者的需求而改變。例如,一個使用者以前對住房搜尋應用程式感興趣,現在可能已經找到了一個新的公寓,所以現在對家居裝飾應用程式感興趣。所以我們致力於一個動態的解決方案。
我們不是離線解決問題,然後把固定的模型部署上線,而是根據服務期間目標的實際價值,根據每個請求線上解決問題。我們將約束定義為相對約束,這意味著我們希望將次要目標提高一個百分比,而不是一個絕對值。這樣,次要目標的任何變化都不會影響我們的求解。
我們開發的演算法可以用來發現許多度量之間的權衡。在權衡曲線上找到合適的點,我們的演算法可以顯著提高次要度量,而對主要度量的影響很小。
團隊合作我們從這次合作中得出的一個重要結論是,在實現用於現實世界的高階機器學習技術時,我們需要在許多實際的約束條件下工作。因為 Play Store 和 DeepMind 團隊緊密合作,每天都進行溝通,所以我們能夠在演算法設計、實現和最終測試階段考慮到產品需求和約束,從而獲得更成功的產品。
迄今為止,我們與谷歌的合作通過冷卻谷歌的資料中心,減少了 30%的所需的電力,提高了谷歌的風能價值約 20%,並建立了裝置上的學習系統來優化 Android 電池效能。現在谷歌助理和谷歌雲平臺使用者遍佈世界各地,我們和 Waymo 的合作研究幫助提高其模型效能,以及提高訓練神經網路的效率。
英文原文:https://deepmind.com/blog/article/Advanced-machine-learning-helps-Play-Store-users-discover-personalised-apps