回覆列表
  • 1 # 演算法小智

    你好樓主,我剛好做過這個系統。嚴格來說,這個系統比較複雜,所涉及領域比較多。流程上來看,要有可以持續執行的實時爬蟲爬取足夠新的內容,這樣這個系統才具備可實用性。有了內容以後,要把內容交給自然語言處理pipeline去進行預處理。1. 分詞經過爬蟲對內容進行分詞,這個分詞需要事先經過電影語料訓練,能夠針對電影名,演員名等做最佳化。2. 實體識別

    電影內容需要做實體的識別,例如,電影名,經典臺詞,角色名,演員名的識別都很重要。

    3.降噪電影內容上有很多噪音,例如語氣詞,違禁詞,停用詞或者無意義符號,要對文字做預處理。4. 關鍵內容識別基於內容的推薦,需要我們事先給內容打上合理和比較貼合的標籤。這一步需要利用前兩個的資訊特徵做文字的生成,改寫或者語義搜尋等。產生的標籤打在電影文件上。5. 電影內容分類我們需要對電影有一個準確分類,來降低推薦難度和文字處理的難度,這一步其實比較容易,大多數電影都是有準確類目的定位的。對於沒有分類的電影,我們可以基於NLP搭建一個分類器,讓我們的程式自動對內容進行分類。6. 關於推進在內容推薦演算法中,我們可以用的資訊有很多,1.基於標籤的內容推薦,上面提到給電影打上多標籤,此時我們在推薦過程中就可以簡單的基於該標籤推薦語義接近的作品了。2.基於電影類目的推薦,這一種推薦方式也不難,根據類目下共同的電影再結合標籤距離來推薦也容易實現。7. 評論傾向性等除了上面的方法,我們還可以做一個情感分析器,透過對挖掘的電影評論給電影打正負面評分,或者精彩評分。然後結合標籤,類目,推薦來進一步提高推薦精度和使用者體驗。

  • 中秋節和大豐收的關聯?
  • 那些結婚時沒有房子的情侶後來都怎樣了?