可以從以下幾個步驟著手:
(1)確定任務(智慧客服);
(2)精細任務分析,從特定應用領域、應用場景出發;明確智慧客服需要保證那些問題能自動化回答,那些問題可以不用關注,總體來講,就是要以任務為驅動;
(3)任務或問題的明確定義:當做分類任務解決 還是 直接生成回答的問題;針對不同的問題,分別考慮資料收集、收據處理、演算法選型、評估方案與指標設計、實驗設計、上線方案和運維等問題。
(4)詳細分析好任務和待回答的問題後,就需要準備語料庫(注重資料質量,好的資料質量,勝過最優秀的演算法);
(5)資料預處理,將文字資料轉換為詞向量(有多種方法,如word2vec等等),考慮輸入資料與標籤資料組織形式,可以參考智慧問答相關的開放資料集;
(6)資料分析,主要包括資料量大小的分析、詞向量高維嵌入分析、如果是分類任務還要分析類別的資料平衡性;能想到的統計分析與資料處理方法都可以考慮,目標是資料高質量;值得一提:資料量的大小決定資料處理(如需要資料增廣、類別平衡、資料上或下采樣等)、方法的選擇以及模型訓練的方法(如使用預訓練模型、考慮小樣本學習方法等);
(7)模型選擇與模型訓練(注重跟進前沿論文和成果,模型訓練就多關注訓練技巧),這部分主要考慮方法選擇,如果是深度學習方法,應充分考慮模型結構設計、損失函式設計、模型整合等問題;
(8)實驗與結果評估,注重訓練資料與評價資料劃分,科學/嚴謹實驗,科學分析;利用設計指標進行評估並充分分析實驗結果,尋找模型做得不好的樣本案例(badcase);
(9)badcase分析與解決;
(10)上線前實測,逐步擴大使用者使用範圍;
(11)繼續跟進和改進出現的問題,重複(1)~(10)的環節。
可以從以下幾個步驟著手:
(1)確定任務(智慧客服);
(2)精細任務分析,從特定應用領域、應用場景出發;明確智慧客服需要保證那些問題能自動化回答,那些問題可以不用關注,總體來講,就是要以任務為驅動;
(3)任務或問題的明確定義:當做分類任務解決 還是 直接生成回答的問題;針對不同的問題,分別考慮資料收集、收據處理、演算法選型、評估方案與指標設計、實驗設計、上線方案和運維等問題。
(4)詳細分析好任務和待回答的問題後,就需要準備語料庫(注重資料質量,好的資料質量,勝過最優秀的演算法);
(5)資料預處理,將文字資料轉換為詞向量(有多種方法,如word2vec等等),考慮輸入資料與標籤資料組織形式,可以參考智慧問答相關的開放資料集;
(6)資料分析,主要包括資料量大小的分析、詞向量高維嵌入分析、如果是分類任務還要分析類別的資料平衡性;能想到的統計分析與資料處理方法都可以考慮,目標是資料高質量;值得一提:資料量的大小決定資料處理(如需要資料增廣、類別平衡、資料上或下采樣等)、方法的選擇以及模型訓練的方法(如使用預訓練模型、考慮小樣本學習方法等);
(7)模型選擇與模型訓練(注重跟進前沿論文和成果,模型訓練就多關注訓練技巧),這部分主要考慮方法選擇,如果是深度學習方法,應充分考慮模型結構設計、損失函式設計、模型整合等問題;
(8)實驗與結果評估,注重訓練資料與評價資料劃分,科學/嚴謹實驗,科學分析;利用設計指標進行評估並充分分析實驗結果,尋找模型做得不好的樣本案例(badcase);
(9)badcase分析與解決;
(10)上線前實測,逐步擴大使用者使用範圍;
(11)繼續跟進和改進出現的問題,重複(1)~(10)的環節。