機器學習在馬蜂窩酒店聚合中的應用初探

首頁>科技>IT技術之家2020-02-04 12:07

機器學習在馬蜂窩酒店聚合中的應用初探

出門旅行，訂酒店是必不可少的一個環節。住得乾淨、舒心對於每個出門在外的人來說都非常重要。

線上預訂酒店讓這件事更加方便。當用戶在馬蜂窩開啟一家選中的酒店時，不同供應商提供的預訂資訊會形成一個聚合列表準確地展示給使用者。這樣做首先避免同樣的資訊多次展示給使用者影響體驗，更重要的是幫助使用者進行全網酒店實時比價，快速找到價效比最高的供應商，完成消費決策。

酒店聚合能力的強弱，決定著使用者預訂酒店時可選價格的「厚度」，進而影響使用者個性化、多元化的預訂體驗。為了使酒店聚合更加實時、準確、高效，現在馬蜂窩酒店業務中近 80% 的聚合任務都是由機器自動完成。本文將詳細闡述酒店聚合是什麼，以及時下熱門的機器學習技術在酒店聚合中是如何應用的。

Part.1 應用場景和挑戰1.酒店聚合的應用場景

馬蜂窩酒旅平臺接入了大量的供應商，不同供應商會提供很多相同的酒店，但對同一酒店的描述可能會存在差異，比如：

酒店聚合要做的，就是將這些來自不同供應商的酒店資訊聚合在一起集中展示給使用者，為使用者提供一站式實時比價預訂服務：

下圖為馬蜂窩對不同供應商的酒店進行聚合後的展示，不同供應商的報價一目了然，使用者進行消費決策更加高效、便捷。

2.挑戰

(1) 準確性

上文說過，不同供應商對於同一酒店的描述可能存在偏差。如果聚合出現錯誤，就會導致使用者在 App 中看到的酒店不是實際想要預訂的：

在上圖中，使用者在 App 中希望開啟的是「精途酒店」，但系統可能為使用者訂到了供應商 E 提供的「精品酒店」，對於這類聚合錯誤的酒店我們稱之為「AB 店」。可以想象，當到店後卻發現沒有訂單，這無疑會給使用者體驗造成災難性的影響。

(2) 實時性

解決上述問題，最直接的方式就是全部採取人工聚合。人工聚合可以保證高準確率，在供應商和酒店資料量還不是那麼大的時候是可行的。

但馬蜂窩對接的是全網供應商的酒店資源。採用人工的方式聚合處理得會非常慢，一來會造成一些酒店資源沒有聚合，無法為使用者展示豐富的預訂資訊；二是如果價格出現波動，無法為使用者及時提供當前報價。而且還會耗費大量的人力資源。

酒店聚合的重要性顯而易見。但隨著業務的發展，接入的酒店資料快速增長，越來越多的技術難點和挑戰接踵而來。

Part.2 初期方案：餘弦相似度演算法

初期我們基於餘弦相似度演算法進行酒店聚合處理，以期降低人工成本，提高聚合效率。

通常情況下，有了名稱、地址、座標這些資訊，我們就能對一家酒店進行唯一確定。當然，最容易想到的技術方案就是通過比對兩家酒店的名稱、地址、距離來判斷是否相同。

基於以上分析，我們初版技術方案的聚合流程為：

輸入待聚合酒店 A；ES 搜尋與 A 酒店相距 5km 範圍內相似度最高的 N 家線上酒店；N 家酒店與 A 酒店分別開始進行兩兩比對；酒店兩兩計算整體名稱餘弦相似度、整體地址餘弦相似度、距離；通過人工制定相似度、距離的閾值來得出酒店是否相同的結論。

整體流程示意圖如下：

「酒店聚合流程 V1」上線後，我們驗證了這個方案是可行的。它最大的優點就是簡單，技術實現、維護成本很低，同時機器也能自動處理部分酒店聚合任務，相比完全人工處理更加高效及時。

但也正是因為這個方案太簡單了，問題也同樣明顯，我們來看下面的例子 (圖中資料虛構，僅為方便舉例)：

相信我們每個人都可以很快判斷出這是兩家不同的酒店。但是當機器進行整體的相似度計算時，得到的數值並不低：

為了降低誤差率，我們需要將相似度比對的閾值提升至一個較高的指標範圍內，因此大量的相似酒店都不會自動聚合，仍需要人工處理。

最後，此版方案機器能自動處理的部分只佔到約 30%，剩餘 70% 仍需要人工處理；且機器自動聚合準確率約為 95%，也就是有 5% 的概率會產生 AB 店，使用者到店無單，入住體驗非常不好。

於是，伴隨著機器學習的興起，我們開始了將機器學習技術應用於酒店聚合中的探索之旅，來解決實時性和準確性這對矛盾。

Part.3 機器學習在酒店聚合中的應用

下面我將結合酒店聚合業務場景，分別從機器學習中的分詞處理、特徵構建、演算法選擇、模型訓練迭代、模型效果來一一介紹。

3.1 分詞處理

之前的方案通過比對「整體名稱、地址」獲取相似度，粒度太粗。

分詞是指對酒店名稱、地址等進行文字切割，將整體的字串分為結構化的資料，目的是解決名稱、地址整體比對粒度太粗的問題，同時也為後面構建特徵向量做準備。

3.1.1 分詞詞典

在聊具體的名稱、地址分詞之前，我們先來聊一下分詞詞典的構建。現有分詞技術一般都基於詞典進行分詞，詞典是否豐富、準確，往往決定了分詞結果的好壞。

在對酒店的名稱分詞時，我們需要使用到酒店品牌、酒店型別詞典，如果純靠人工維護的話，需要耗費大量的人力，且效率較低，很難維護出一套豐富的詞典。

在這裡我們使用統計的思想，採用機器+人工的方式來快速維護分詞詞典：

上表中示意的是出現頻率較高的詞，得到這些詞後再經過人工簡單篩查，很快就能構建出酒店品牌、酒店型別的分詞詞典。

3.1.2 名稱分詞

想象一下人是如何比對兩家酒店名稱的？比如：

A：7 天酒店 (酒仙橋店)B：如家酒店 (望京店)

首先，因為經驗知識的存在，人會不自覺地進行「先分詞後對比」的判斷過程，即：

7 天--->如家酒店--->酒店酒仙橋店--->望京店

所以要想對比準確，我們得按照人的思維進行分詞。經過對大量酒店名稱進行人工模擬分詞，我們對酒店名稱分為如下結構化欄位：

著重說下「型別前 2 字」這個欄位。假如我們需要對如下 2 家酒店名稱進行分詞：

酒店 1：龍門南崑山碧桂園紫來龍庭溫泉度假別墅酒店 2：龍門南崑山碧桂園瀚名居溫泉度假別墅

分詞效果如下：

我們看到分詞後各個欄位相似度都很高。但型別前 2 字分別為：

酒店 1 型別前 2 字：龍庭酒店 2 型別前 2 字：名居

這種情況下此欄位 (型別前 2 字) 具有極高的區分度，因此可以作為一個很高效的對比特徵。

3.1.3 地址分詞

同樣，模擬人的思維進行地址分詞，使之地址的比對粒度更細更具體。具體分詞方式見下圖：

下面是具體的分詞效果展示如下：

小結

分詞解決了對比粒度太粗的缺點，現在我們大約有了 20 個對比維度。但對比規則、閾值怎麼確定呢？

人工制定規則、閾值存在很多缺點，比如：

規則多變。20 個對比維度進行組合會出現 N 個規則，人工不可能全部覆蓋這些規則；人工制定閾值容易受「經驗主義」先導，容易出現誤判。

所以，對比維度雖然豐富了，但規則制定的難度相對來說提升了 N 個數量級。機器學習的出現，正好可以彌補這個缺點。機器學習通過大量訓練資料，從而學習到多變的規則，有效解決人基本無法完成的任務。

下面我們來詳細看下特徵構建以及機器學習的過程。

3.2 特徵構建

我們花了很大的力氣來模擬人的思維進行分詞，其實也是為構建特徵向量做準備。

特徵構建的過程其實也是模擬人思維的一個過程，目的是針對分詞的結構化資料進行兩兩比對，將比對結果數字化以構造特徵向量，為機器學習做準備。

對於不同供應商，我們確定能拿到的資料主要包括酒店名稱、地址、座標經緯度，可能獲得的資料還包括電話和郵箱。

經過一系列資料調研，最終確定可用的資料為名稱、地址、電話，主要是：因為

部分供應商經緯度座標系有問題，精準度不高，因此我們暫不使用，但待聚合酒店距離限制在 5km 範圍內；郵箱覆蓋率較低，暫不使用。

要注意的是，名稱、地址拓展對比維度主要基於其分詞結果，但電話資料加入對比的話首先要進行電話資料格式的清洗。

最終確定的特徵向量大致如下，因為相似度演算法比較簡單，這裡不再贅述：

3.3 演算法選擇：決策樹

判斷酒店是否相同，很明顯這是有監督的二分類問題，判斷標準為：

有人工標註的訓練集、驗證集、測試集; 輸入兩家酒店，模型返回的結果只分為「相同」或「不同」兩類情況。

經過對多個現有成熟演算法的對比，我們最終選擇了決策樹，核心思想是根據在不同 Feature 上的劃分，最終得到決策樹。每一次劃分都向減小資訊熵的方向進行，從而做到每一次劃分都減少一次不確定性。這裡摘錄一張圖片，方便大家理解：

3.3.1 Ada Boosting OR Gradient Boosting

具體的演算法我們選擇的是 Boosting。「三個臭皮匠，頂過諸葛亮」這句話是對 Boosting 很好的描述。Boosting 類似於專家會診，一個人決策可能會有不確定性，可能會失誤，但一群人最終決策產生的誤差通常就會非常小。

Boosting 一般以樹模型作為基礎，其分類目前主要為 Ada Boosting、Gradient Boosting。Ada Boosting初次得出來一個模型，存在無法擬合的點，然後對無法擬合的點提高權重，依次得到多個模型。得出來的多個模型，在預測的時候進行投票選擇。如下圖所示：

Gradient Boosting 則是通過對前一個模型產生的錯誤由後一個模型去擬合，對於後一個模型產生的錯誤再由後面一個模型去擬合…然後依次疊加這些模型：

一般來說，Gradient Boosting 在工業界使用的更廣泛，我們也以 Gradient Boosting 作為基礎。

3.3.2 XGBoost OR LightGBM

XGBoost、LightGBM 都是 Gradient Boosting 的一種高效系統實現。

我們分別從記憶體佔用、準確率、訓練耗時方面進行了對比，LightGBM 記憶體佔用降低了很多，準確率方面兩者基本一致，但訓練耗時卻也降低了很多。

記憶體佔用對比：

準確率對比：

訓練耗時對比：

基於以上對比資料參考，為了模型快速迭代訓練，我們最終選擇了 LightGBM。

3.4 模型訓練迭代

由於使用 LightGBM，訓練耗時大大縮小，所以我們可以進行快速的迭代。

模型訓練主要關注兩方面內容：

訓練結果分析模型超參調節3.4.1 訓練結果分析

訓練結果可能一開始差強人意，沒有達到理想的效果，這時需要我們仔細分析什麼原因導致的這個結果，是特徵向量的問題？還是相似度計算的問題？還是演算法的問題？具體原因具體分析，但總歸會慢慢達到理想的結果。

3.4.2 模型超參調節

這裡主要介紹一些超引數調節的經驗。首先大致說一下比較重要的引數：

(1) maxdepth 與 numleaves

maxdepth 與 numleaves 是提高精度以及防止過擬合的重要引數：

maxdepth : 顧名思義為「樹的深度」，過大可能導致過擬合numleaves 一棵樹的葉子數。LightGBM 使用的是 leaf-wise 演算法，此引數是控制樹模型複雜度的主要引數

(2) feature_fraction 與 bagging_fraction

feature_fraction 與 bagging_fraction 可以防止過擬合以及提高訓練速度：

feature_fraction :隨機選擇部分特徵 (0<feature_fraction <1)bagging_fraction 隨機選擇部分資料 (0<bagging_fraction<1)

(3) lambda_l1 與 lambda_l2

lambda_l1 與 lambda_l2 都是正則化項，可以有效防止過擬合。

lambda_l1 :L1 正則化項lambda_l2 :L2 正則化項3.5 模型效果

經過多輪迭代、優化、驗證，目前我們的酒店聚合模型已趨於穩定。

對方案效果的評估通常是憑藉「準確率」與「召回率」兩個指標。但酒店聚合業務場景下，需要首先保證絕對高的準確率(聚合錯誤產生 AB 店影響使用者入住)，然後才是較高的召回率。

經過多輪驗證，目前模型的準確率可以達到 99.92% 以上，召回率也達到了 85.62% 以上：

可以看到準確率已經達到一個比較高的水準。但為保險起見，聚合完成後我們還會根據酒店名稱、地址、座標、設施、型別等不同維度建立一套二次校驗的規則；同時對於部分當天預訂當天入住的訂單，我們還會介入人工進行實時的校驗，來進一步控制 AB 店出現的風險。

3.6 方案總結

整體方案介紹完後，我們將基於機器學習的酒店聚合流程大致示意為下圖：

經過上面的探索，我們大致理解了：

解決方案都是一個慢慢演進的過程，當發現滿足不了需求的時候就會進行迭代；分詞解決了對比粒度太粗的缺點，模擬人的思維進行斷句分詞；機器學習可以得到複雜的規則，通過大量訓練資料解決人無法完成的任務。Part 4 寫在最後

新技術的探索充滿挑戰也很有意義。未來我們會進一步迭代優化，高效完成酒店的聚合，保證資訊的準確性和及時性，提升使用者的預訂體驗，比如：

進行不同供應商國內酒店資源的座標系統一。座標對於酒店聚合是很重要的 Feature，相信座標系統一後，酒店聚合的準確率、召回率會進一步提高。打通風控與聚合的閉環。風控與聚合建立實時雙向資料通道，從而進一步提高兩個服務的基礎能力。

上述主要講的是國內酒店聚合的演進方案，對於「國外酒店」資料的機器聚合，方法其實又很不同，比如國外酒店名稱、地址如何分詞，詞形還原與詞幹提取怎麼做等，我們在這方面有相應的探索和實戰，總體效果甚至優於國內酒店的聚合，後續我們也會通過文章和大家分享，希望感興趣的同學持續關注。

105

∨ ofo4.0徹底變成返利網了

劇多

機器學習在馬蜂窩酒店聚合中的應用初探

機器學習

酒店

演算法

美好，一直在身邊

人力資源