5億註冊使用者2014年5月1.5億,2015年5月3億,2016年5月份為5億。幾乎為成倍增長。日活4800萬用戶2014年為1000萬日活,2015年為3000萬日活。日均5億PV5億文章瀏覽,視訊為1億。頁面請求量超過30億次。使用者停留時長超過65分鐘以上
1、文章抓取與分析
我們日常產生原創新聞在1萬篇左右,包括各大新聞網站和地方站,另外還有一些小說,部落格等文章。這些對於工程師來講,寫個Crawler並非困難的事。
接下來我們會對文章進行文字分析,比如分類,標籤、主題抽取,按文章或新聞所在地區,熱度,權重等計算。
2、使用者建模
ScribeFlumeKafka我們對使用者的興趣進行挖掘,會對使用者的每個動作進行學習。主要使用:
Hadoop Storm產生的使用者模型資料和大部分架構一樣,儲存在MySQL/MongoDB(讀寫分離)以及Memcache/Redis中。
隨著使用者量的不斷擴充套件大,使用者模型處理的機器叢集數量較大。2015年前為7000臺左右。其中,使用者推薦模型包括以下維度:
使用者訂閱標籤部分文章打散推送此時,需要每時每刻做推薦。
3、新使用者的“冷啟動”
分析使用者的主要引數如下:
4、推薦系統
1) 自動推薦系統
自動候選 自動匹配使用者,如使用者地址定位,抽取使用者資訊 自動生成推送任務這時需要高效率,大併發的推送系統,上億的使用者都要收到。
2)半自動推薦系統
資訊App的技術指標,比如螢幕滑動,使用者是不是對一篇都看完,停留時間等都需要我們特別關注
5、資料儲存
6、訊息推送
頻率個性化內容個性化 地域 興趣比如:
按照城市:遼寧朝陽發生的某個新聞事件,發給朝陽本地的使用者。
按照興趣:比如京東收購一號店,發給網際網路興趣的使用者。
推送平臺的工具和選擇,需要具備如下的標準:
通道,首先速度要快,但是要可控,可靠,並且節省資源推送的速度要快,有不同維度的策略支援,可跟蹤,開發介面要友好推送運營的後臺,反饋也要快,包括時效性,熱度,工具操作方便對於運營側,清晰是否確定推薦,包括推送的文案處理因此,推送後臺應該提供日報,完整的資料後臺,提供A/B Test方案支援。
推送系統一部分使用自有IDC,在傳送量特別大,消耗頻寬較嚴重。可以使用類似阿里雲的服務,可有效節省成本。
系統的分層比較典型。重點在基礎設施,希望通過基礎設施提高快速迭代、容災和一系列的工作,希望各個業務團隊能更快做業務上的迭代以及架構上的調整。
本小編專注於伺服器後臺開發,包括C/C++,Linux,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒體,CDN,P2P,K8S,Docker,TCP/IP,協程,DPDK等等,特聘多位一線網際網路百萬年薪的技術專家,以大型網際網路落地的產品架構為核心,培養Linux 領域全能型的專業C/C++開發工程師。