小紅脣App是國內最大的一款針對15-25歲年輕女性的垂直視訊分享社群和社交化電商平臺。其為使用者提供了豐富的平臺內容、活躍的社群生態和優質的產品選擇。用一句話概括小紅脣業務模式為短視訊美妝社群電商。目前,小紅脣的業務資料庫已經完全遷移到了阿里的RDS平臺,藉助阿里雲的QUICK BI,小紅脣能夠非常方便地根據實際的運營資料對進一步的決策和運營商的策略進行調整,極大提高了運營效率。小紅脣藉助於阿里雲MaxCompute比較完善的整個生態系統設計了大資料平臺,並且無需專職資料團隊,降低了人員成本,還擁有了在21天內搭建推薦系統的能力。
“小紅脣App擁抱阿里雲數加已有半年光景,對數加的體驗非常好,其感受主要為以下四點:不需要像傳統大資料業務一樣構建一個非常複雜的Hadoop棧,並且對其進行運維,節省了金錢和時間成本;MaxCompute的整個生態系統設計的比較完善,無需專職資料團隊,降低了人員成本;得益於數加的生態,可以在21天內搭建推薦系統;藉助流計算非侵入實現業務匯流排,滿足了絕大部分場景。”
——王洋
小紅脣(北京)網路科技有限公司首席架構師
採用的阿里雲產品阿里雲資料庫 RDS阿里雲大資料計算服務 MaxCompute阿里雲 DataHub阿里雲 Quick BI阿里雲機器學習PAI(Platform of Artificial Intelligence)阿里雲流計算 (Alibaba Cloud StreamCompute)阿里雲 DataX為什麼使用阿里雲將所有資料都搬到MaxCompute平臺上之後,在其上做的資料開發更加輕鬆。
藉助阿里雲的QUICK BI,小紅脣能夠非常方便地根據實際的運營資料對進一步的決策和運營商的策略進行調整,極大提高了運營效率。
藉助阿里雲的能力,小紅脣擁有了在21天內搭建推薦系統的能力。
關於 小紅脣小紅脣是一款針對女性的垂直視訊分享社群+社會化電子商務平臺,通過達人分享的形式免費提供變美短視訊教程;實現女性使用者在其電商平臺高頻消費。小紅脣APP由姜志熹創辦,2015年4月正式上線; 小紅脣涵蓋了美妝、塑身、時尚、生活四大頻道,其內容產生機制側重於UGC 模式,呈現形式為一分鐘左右的短視訊。使用者可以點選觀看達人們的真實分享和推薦,當然也可以直接變換角色成為達人,拍一段視訊上傳自己的產品心得。
為什麼選擇阿里雲?小紅脣基於阿里雲數加平臺搭建的資料倉庫解決方案
小紅脣App的資料來源主要為兩個方面:業務伺服器產生的API日誌,代表著使用者的各種行為資料;伺服器產生的各種交易資料,比如使用者發的帖子、買的東西。使用者行為日誌是通過阿里雲的datahub元件把API日誌採集到MaxCompute平臺上。業務資料是通過阿里雲提供的DATAX工具載入到MaxCompute平臺上。目前,業務資料庫已經完全遷移到了阿里的RDS平臺,只需要在數加的IDE裡做一些簡單的配置即可將資料完整的遷移過來。當所有資料都搬到MaxCompute平臺上之後,在其上做的資料開發更加輕鬆。在其上,可以用類SQL的語句編寫資料清洗和轉換的執行任務,平臺同時提供管理器對任務進行排程和管理。在數倉之上,構建了很多應用,最直接的就是QUICK BI。社群內容運營和商品運營都是依賴於實際的運營資料來做進一步的決策和運營商的策略調整,QUICK BI對運營的指導非常大。阿里雲的QUICK BI不需要開發視覺化的前端,只需要在數加的data IDE裡面做相應資料任務的編排就可以很容易的通過QUICK BI產品展示出來。並且,在QUICK BI視覺化的介面上不僅有各種圖表的展現還提供了一定功能的多維資料分析,極大提高了運營效率。
小紅脣基於阿里雲數加平臺搭建的推薦引擎
小紅脣推薦引擎的整體架構如上圖所示。虛線框以內是推薦引擎產品本身的內容。小紅脣需要做的僅僅是把自己的資料按照推薦引擎需要的格式準備好,在MaxCompute裡面把對應的表都建好。主要應用場景是短視訊和圖片的推薦,推薦引擎打理好一切之後,得到推薦結果以API形式供業務伺服器呼叫。除了便捷性,推薦引擎還提供了非常強的靈活性。主要做了首頁推薦和詳情頁推薦,首頁推薦主要是用基於協同過濾的演算法來計算出結果,詳情頁推薦對阿里雲的模板進行了修改引入了基於TF-IDF演算法的計算節點來加強了相關性的推薦。同時,推薦引擎還支援A/B TEST測試體系,對模板演算法和引數的細微調整都可以定量化的分析和計算出來。推薦引擎的另外一個優勢是可以和流計算相結合,把使用者的資料實時匯入計算引擎中,實時對推薦結果進行修正。
小紅脣對於阿里雲機器學習平臺應用
基於視訊元資訊的迴歸
作為一個UGC的平臺,使用者上傳內容的品質是參差不齊的,為了保證平臺內容的品質。編輯進行了很多精選和挑選的工作。如何提升編輯的篩選效率?為此,小紅脣選擇了阿里雲的機器學習平臺。通過視訊的元資訊(時長,幀率,位元速率,描述內容,亮度,對比度,解析度,銳度)的抽取,形成了特徵矩陣,隨機選取了已有視訊資料;以是否經過編輯精選做了有監督的邏輯迴歸訓練,訓練出模型;對新的視訊應用這個模型給出預判評估,作為視訊編輯的參考, 及搜尋推薦的影響因子。
具體的過程如上圖所示。我們需要將自己的視訊資訊進行量化,通過拖拽、拼接構建起訓練的模型。最左邊這張圖應用了邏輯迴歸、線性迴歸、隨機森林三種模型進行訓練,目前選用的是邏輯迴歸的模型。在演算法平臺訓練完模型之後會非常容易的匯入到Date IDE中,準備好的新視訊資料就會把模型節點加進去,得到對應的預測打分。最右邊的圖是把評分結果通過QUICK BI展示。整個過程沒有太多的工作量,只需要在平臺上做一些配置就可以完成整個視訊元資訊的迴歸和訓練。
近義詞
近義詞主要是為了優化搜尋的體驗,具體是把使用者釋出的內容、視訊的名稱、描述、使用者的標籤、評論等語料資訊通過阿里雲word2vec算髮獲取詞向量,通過餘弦相似度計算獲取近義詞,通過人工篩選、錄入到搜尋引擎的同義詞庫中提升搜尋體驗。最上層是使用者輸入的元資料,通過幾個步驟,以及K-means聚類演算法做了一些分析。
小紅脣的業務匯流排設計
最開始使用流計算只是為了提升一些應用場景(搜尋熱詞統計、實時熱度統計)的響應速度。但是,通過流計算已經截取了所有的業務事件,那麼是否可以通過流計算將業務事件實時觸發出來支撐類似於傳送優惠券、推送訊息等業務?實踐證明了其可行性。目前,通過流計算這套業務匯流排體系的時延控制在了秒級。
擁抱阿里雲所帶來的成效小紅脣藉助阿里雲數加實現“降維打擊”
小紅脣App擁抱阿里雲數加已有半年光景,對數加的體驗非常好,其感受主要為以下四點:不需要像傳統大資料業務一樣構建一個非常複雜的Hadoop棧,並且對其進行運維,節省了金錢和時間成本;MaxCompute的整個生態系統設計的比較完善,無需專職資料團隊,降低了人員成本;得益於數加的生態,可以在21天內搭建推薦系統;藉助流計算非侵入實現業務匯流排,滿足了絕大部分場景。
雲棲社群場景研究小組成員:賈子甲,仲浩。