回覆列表
-
1 # 科技千里眼
-
2 # 新任軍師
應該說還是比較準確的。手機使用者一般以IMEI來作為使用者身份標識,電腦端的話一般採集cookies資訊。比如針對使用者性別的分析,有資料表明,90%的準確度是可以達到的。
大資料主要來生成使用者畫像,刻畫出使用者畫像,便可針對性的推薦,實現精準營銷。以下是使用者畫像的生成過程:
1資料採集
採集資料時,一般來說將使用者畫像的目標進行分解,進行多元素,多維度的資料採集,像使用者的基本資訊資料、社會屬性資料可透過使用者資訊填寫、調查問卷等方式獲取,而使用者的行為資料需要透過使用者行為的採集,這裡就涉及到手機、PC端的資料獲取。
2資料預處理
資料採集到的一般為結構化,非結構化的資料,需要將資料清洗、資料結構化處理、資料合併等操作,資料篩選清理針對無效或者虛假資料進行處理剔除,甄別出有效的使用者資料;資料結構化處理以及資料整合等需結合分析目標進行特點行為資料的採集,刻畫出使用者資訊的基本結構。
3資料標籤化,並賦予權重
打標籤是將得到的各項使用者資訊對映到標籤,並且賦予各個標籤賦相應的權重。在這裡權重值計算是至關重要的一步,它決定了構建使用者畫像的架構,以影片類APP為例,使用者的喜好等都會透過播放影片來體現,那麼其中某項標籤的行為使用者越多,那麼該標籤對應的權重越大,但是,權重一旦賦予並不是一成不變,隨著時間的推移,是需要實施調整的。使用者喜歡觀看的各影片型別的標籤資料如下:
4生成畫像
當所有的使用者的資訊都生成標籤且得賦予了權重以後,每個使用者自己的標籤體系也具備,則可以根據各業務應用場景的不同需求進行匹配篩選,進行個體與總體的對比,進行精準推送廣告營銷等。
現在許多平臺都使用大資料的推薦演算法來向用戶推薦更適合的內容,那麼這個演算法本身真的很厲害麼?
A 推薦演算法的核心——分類器一個平臺上的內容何止千萬,如何才能準確地找到你喜歡的那幾條呢?
關鍵點在於如何設計這些使用者操作和記錄的“機制”,讓使用者做最少的動作就能獲得最有效的資訊,準確地把你分類到一個集中。
把內容分類對每個影片/文章/問答/圖片打上標籤,這時會用到AI的一些演算法,去準確地識別內容並分類。
B 推薦演算法的難點資料量這裡並不是說資料量越大越好,其實資料量過多也是演算法的難處之一,涉及到如何儲存/如何處理/如何解析等等,能很好地處理龐大的資料的演算法是非常不容易的。
計算能力手機上的軟體就那麼大,手機計算能力就那麼點,資訊處理的能力非常有限,大部分計算是網站後臺伺服器實現的,可是如何能夠利用每一臺手機這些小小地處理器,將部分資訊進行預處理,也是很厲害的。
自淨化能力如果單純是喜歡看什麼,就讓什麼火,那後果是非常嚴重的,如果那樣,網路上恐怕會充斥著黃色/暴力/低俗這些內容了。
所以推薦機制有一個很重要的能力,準確地識別的這些內容,並把它最快速度扼殺掉。
總結一下大資料的推薦演算法還真的是挺厲害的,想要做一個非常好的推薦機制,需要考慮的維度非常之多,需要處理的資料量非常之大,需要計算能力非常之強。