3月25日雲棲社群線上實時分享順利結束,本次美柚帶來的分享包括如何充分利用現有機房伺服器資源與阿里雲產品組建混合雲架構,實現快速部署與大資料的處理與計算服務。同時也詳細介紹了美柚在多維度使用者資料分析處理和大資料智慧挖掘技術的實踐經驗。本次視訊直播的整理文章、視訊、幻燈片整理完畢,如下內容。
混合雲圖一美柚混合雲
在2013年美柚成立之初,行業內雲生態圈並不是十分完善。因此,最初的架構採用自建機房的傳統開發方式,至今為止,託管機房內伺服器數量達300臺之多;同時,為了迎合大資料發展的趨勢,美柚也搭建了自己的Hadoop、Spark、Storm、Kylin等對應的大資料處理平臺;在資料庫方面,採用MySQL、MogoDB、Redis、CounchBase等主流資料庫。在2014年,接觸阿里雲之後,逐漸採用阿里雲的產品,從最開始接觸公測的ADS到現在使用的ECS、MaxCompute、RDS、分析型資料庫、TAE、阿里云云盾等等,目前美柚形成了混合雲的模式,既有一定規模的託管機房,也積極的使用阿里雲的產品。
圖二 服務分佈
雲上設施和雲下設施分工各不相同。因為最初的架構是在託管機房上建立的,所以現在主要的App介面、社群、廣告系統、使用者中心、柚幣中心以及包括App和社群的運營後臺都部署在託管機房;同時搜尋、推送、實時監控、反垃圾等最初建立起的基礎服務也是部署在託管機房裡面的;此外,託管機房內也有一些如Spark、Hadoop等大資料處理平臺,但叢集規模相對較小。
美柚的整個官網全部部署在阿里雲上,同時美柚電商柚子街也是基於阿里雲建立的,包括整個電商平臺和運營後臺、招商系統。此外,還基於阿里雲搭建了BI系統。最後,為了緩解自建大資料叢集的規模較小的情況,積極採用阿里雲大資料平臺對資料進行分析和處理計算。
混合雲之間的資料互動圖三 混合雲之間的資料互動
上圖是託管機房和阿里雲之間的資料流通情況,可以看到每天會有一部分資料包括業務日誌、資料庫的增量資料會從託管機房流向阿里雲。資料流向阿里雲的ODPS後,在ODPS內進行一些資料計算和演算法模型的訓練。然後再將計算的結果匯入ADS和RDS中,其中匯入的ADS支援BI系統,並且ADS能夠多值列查詢和毫秒級的實時響應,有利於生成BI報表;另一部分資料存入RDS中,不僅降低了儲存成本,同時也提高了資料的安全性。經阿里雲端計算和處理後,部分資料還需要回流到託管機房的資料庫和數倉內,迴流的目的是因為現在還有一些比較重要的服務還在託管機房內部署,並且從機房呼叫可以極好的縮短呼叫的延遲。每日從自建機房流向阿里雲的資料量相當大,對於一些重要的資料如使用者資料,在自有機房和阿里雲上進行了雙活,首先從業務資料庫先同步到自建機房的HBase叢集中做一個備份,然後在阿里雲上也做了一個備份,這些資料以一小時為間隔進行同步,以此確保重要資料的安全。
從機房到阿里雲上採用逐類更新的方式,準實時的資料依舊在託管機房處理;對一些大資料計算和實時性要求不是很高的資料將其流向阿里雲,藉助阿里雲超強的計算能力和超大的叢集規模進行計算處理,同時這些資料會在T+1日進行更新。
API實時監控圖四 API實時監控
隨著美柚不斷髮展,系統逐漸受到一些惡意攻擊,包括惡意抓取、DDoS攻擊等,因此API實時監控顯得不可或缺。目前通過使用阿里雲盾DDoS高防IP,有效地抵禦部分網路攻擊,並可以進行流量清洗和分析。在此基礎上,美柚還自主研發了API實時監控系統,監控系統的資料是來自託管機房的實時處理計算平臺,通過監控系統可以實時觀察服務端響應時間、處理數目以及各個介面的呼叫分佈。通過全鏈路實時監控服務品質,保障使用者極致體驗。同時作為一個移動網際網路公司,美柚將API實時監控從傳統的服務部署轉向移動化,在移動端Android/IOS進行實時業務監控與預警,使得開發和運維在任一地點任意時間都能對實時業務了如指掌,可以第一時間發現問題所在。
大資料智慧挖掘圖五 大資料助力社群電商生態
上圖是美柚大資料智慧挖掘的大致框架,作為一個社群電商一體化的公司,美柚利用大資料探勘打通整個生態系統。以使用者為中心,通過對使用者的深入分析,形成使用者畫像,深入理解使用者需求,個性化的改造社群使其更有溫度、更具黏性。同時基於對使用者的理解,使得社群電商能夠進行精準化的推薦,深入了解使用者的需求。基於對女性使用者的理解,對使用者做了多維度的劃分,品牌商和廣告主精準的投放廣告,可得到更高的收益。
美柚採用兩套系統儲存使用者資料,在阿里雲上,使用者資料主要存放在ADS上,將使用者特徵存放在ADS的多值列中;在自建機房內,採用Kylin中的Cube來存放使用者的基礎維度的特徵,便於快速的查詢。
多維度使用者資料美柚BI系統顯示其使用者遍佈全國各地,包含港澳臺,使用者年齡段從70前到00後均有,其中95後居多,使用者身份有少女、備孕、懷孕、辣媽,形成了完整的女性生態系統。
圖六 多維度使用者資料
美柚基於女性生態系統,形成大量的多維度的女性相關資料。使用者的經期、體重、體溫、孕期日誌記錄資料,加上社群內收集的使用者的瀏覽、發帖、回覆等資料,同時再結合使用者的婚姻、年齡、星座身份、手機裝置等基礎資訊,還有一些社交媒體上抓取的重合資料,補充完整一個使用者全部資料。基於上述完整的資料,形成使用者畫像,深入洞察與服務女性,做最懂女性的App。
圖七 使用者記錄分析
上圖是具體的使用者記錄分析。最左邊是使用者的好習慣,通過使用者在App上記錄的好習慣,建立任務系統,鼓勵使用者繼續將好習慣保持;中間圖表記錄了女性不舒服的狀態,上面有很多選項,同時使用者也可以自定義自已的情況,通過對圖表的的跟蹤,可以對女性的健康狀態進行分析;右邊的圖表顯示了一些私密資訊,做到個性化定製,滿足不同需求。目前美柚月活躍使用者中使用記錄的佔比達到84.8%,通過資料分析可以幫助寶媽們科學備孕,關愛女性健康。
圖八 多維度使用者標籤
通過對女性在生態系統的分析,制定多維度的使用者標籤。其中基礎屬性標籤包括女性的年齡、婚姻、身份、星座等。行業標籤是基於對使用者行為的分析和第三方資料的補充形成的;興趣標籤,可以幫助理解使用者在社群和電商平臺行為記錄。目前美柚總共具有200多類使用者標籤,通過這些標籤可以形成非常豐富的使用者畫像。
大資料應用圖九 產品地圖
上圖是大資料產品地圖,圖中包含了美柚利用大資料衍生的產品。其中已上線的BI系統,是通過大資料分析形成的報表類,它能夠加深對系統的理解和輔助下一步業務決策的進行;另一個是反垃圾演算法,通過大資料演算法對一些垃圾廣告智慧識別、處理。還有實時業務監控、首頁推薦、個性化推送、個性化搜尋等功能。同時情感分析、輿情監控、關聯推薦、SSP、DMP、Ad Exchange等功能還在開發中。
圖十 反垃圾演算法
這張圖展示了美柚利用大資料進行反垃圾演算法的整體框架,主要包含兩部分。虛線上方是反垃圾演算法的訓練流程,最開始是基於NLP自然語言處理進行,首先對文字資料(垃圾貼和正常貼)進行分詞,這些分詞需要定期更新,然後再對帖子進行特徵處理和選取,將提取之後的特徵送入分類器模型訓練,其中分類器包括貝葉斯分類、邏輯迴歸分類等,通過訓練輸出分類模型的結果。這些訓練最初是在自有機房進行的,後來隨著資料量的增加,已將部分模型訓練遷移到阿里雲上。
虛線下方是機房內實時計算的處理流程,使用者發帖和回覆之後,將其寫入Kafka訊息佇列,首先會對白名單使用者過濾,然後一是依據分類模型的訓練效果,對文字進行識別和分類,對垃圾帖和非垃圾帖進行判別;另外的方式就是通過Simhash演算法對文字相似對度進行計算,進行相似貼統計,最後通過這些策略彙總,生成整個反垃圾演算法。近期美柚對該演算法又做了進一步的迭代,對使用者的暱稱、發帖時間間隔、發帖行為進行分析,更好地進行了預防垃圾帖。
通過阿里雲提供的豐富的開發套件和演算法庫,大大縮短了美柚從想法到產品的時間。
QA環節:1、美柚目前採用的是混合雲架構,未來有可能將全部架構遷移到阿里雲上嗎?
答:美柚採用混合雲的一個原因是因為公司在13年就已經發展起來,自有機房已經具有一定的規模,由於阿里雲的高效能、高計算,才採取了混合雲的架構。短時間內,依舊會保持混合雲的架構,一方面是希望技術團隊繼續發展大資料計算的能力,另外一方面是否全面遷移到阿里雲上,還是根據以後的業務發展做決定。
2、美柚上面的帖子可能會有億萬的瀏覽量,美柚App是如何應對如此之大的閱讀量的?
答:在提升移動端體驗做了很多的事情,移動端對延遲非常敏感,首先在客戶端做了很多優化,在快取和頁面載入上都追求極致;其次,參照阿里的手淘,搭建了HTTP DNS,防止運營商劫持,同時也能縮短DNS的解析時間,在服務端也進行了很多優化,對資料層進行分離,使用高效的快取。
3、美柚有多少專職運維人員?
答:美柚目前專職運維人員只有三個,藉助於目前的混合雲架構,通過阿里雲的運維監控、運維報警等機制,使得運維人員在自建機房和雲上運維遊刃有餘。
4、美柚目前的美柚女生助手、柚寶寶孕育等五個App在架構有什麼區別?
答:最開始研發的幾個App的介面都是放在自建機房的,去年新上線的電商App是完全搭建在阿里雲上的。
5、美柚如何處理高併發的場景?
答:以社群為例,每天的發帖回覆量都是很大,每天晚上的九點到十一點是一個訪問高峰。為了應對高併發場景,在服務端,進行了很多分層和模組化的設計,比如將資料層和業務層進行分離;在開發語言的選擇上,使用輕量級語言PHP在社群做一些業務級別的實現;複雜的、非同步、延遲比較大的處理下沉,用Java和C++進行實現。
6、Node.js在美柚的使用場景?
答:Node.js用的相對較少,主要用於前端和後端的分離,去年年底才開始使用,目前還處於嘗試階段。
關於分享者
黃益聰 美柚技術總監
美柚通過社群+工具+電商為廣大女性提供一站式綜合服務,滿足女性群體交流溝通、知識獲取、購物三大需求。《網際網路週刊》釋出2015年度APP分類排行榜,美柚位居女性APP第一位。同年12月,在清科集團、投資界主辦的2015中國最具投資價值企業50強評選中,美柚憑藉在女性市場的卓越表現從3000多家報名企業中脫穎而出,獲評“2015中國最具投資價值企業50強”,截止到2015年7月,美柚使用者超過1億,日活躍使用者500萬。