摘要:
隨著出版行業的不斷髮展與深化,出版內容更加豐富、出版內容形式更加多樣,對資料的分類標引提出了更加嚴格的要求。目前資料標引多以人工標引方式存在,對資料進行分門別類打標記。由於人工精力有限,且大量標引工作過於繁瑣,因此僅使用人工標引無法滿足出版內容發展日益深化的需求。
自機器學習、深度學習技術廣泛應用以來,基於深度學習的自動分類標引技術得以實現。在工作場景中,我們能夠使用少量人工標記資料,透過機器學習演算法建立模型後,可以為後續標引工作提供自動分類標引。對已分類的資料再次學習,不斷最佳化模型後,逐漸替代人工標引。
使用自動分類標引技術的理由是什麼?圖:多維度分類標引
*分類預測精準,提高預測效率
自動分類標引技術可以應用於文字資料、影象資料、音影片資料等數字化資料的分類工作。只需要預先設定分類類別和資料訓練集就能夠實現。
*節省人力
程式自動執行標引過程,提高了分類的準確性,降低人工分類繁瑣和難度,在自動分類的基礎上由人工對各類稿件進行分類調整確認和元資料編輯標引。
*資源型別廣泛
資源型別涉及圖書篇章、廣告文案、內容插圖、音影片、檔案等,涉及分類包括中圖法分類、學科分類等具有多級分類結構的分類標引,資源在清洗入庫後經過出版自動標引自動分類資源。
*不斷最佳化,工作效率持續升級
經過稽核後的標引資料再次用於下一輪機器學習,該過程由程式自動執行,不斷最佳化輸出結果,形成良性閉環,幫助準確程度及工作效率持續升級。
自動分類標引技術如何進行進行深度學習訓練?自動分類標引技術的首要過程就是對自然語言的處理及分析。系統透過對自然語言的處理和訓練,最終建立機器學習模型進行深度學習,進而指導進一步的資料標引。
而深度學習是機器學習的一種,而機器學習是實現人工智慧的必經路徑。區別於傳統淺層學習的深度學習,不僅強調了模型結構的深度,也明確了特徵學習的重要性。使用訓練成功的網路模型,就可以實現我們對複雜事務處理的自動化要求。
深度學習包括輸入層、隱含層、輸出層三部分,其中輸入層是研究人員提供的大量資料,是演算法的處理物件,隱含層的層數由實驗人員確定,是演算法對資料進行特徵標記、發現其中規律、建立特徵點間聯絡的過程,輸出層則是研究人員可以得到的結果,一般來說輸入層得到的資料越多,隱含層的層數越多,對資料的區分結果也就越好,作為推動自然語言處理的最新動力,機器學習具有人工不可替代的優勢。
圖:自然語言處理和分析過程
目前自動分類標引質量目標準確率在98%以上,測試資料集準確率在95%以上。在一般生產環境下可以做到較高的準確率。
哪些場景可以應用自動分類標引技術?該項技術主要應用於出版機構的資源自動標引工作中。建立完善的數字資源標引體系能夠幫助出版社盤點資源、為日後產品創新提供支撐,更加便於出版社的內容創作。
圖:自動標引技術在專案中的應用
支援對出版機構資源進行標引,包括資料、稿件、圖片、圖表、影片、音訊等資源,按照多種分類體系、企業內部產品體系、管理體系、關鍵詞、主題詞等進行標引;並透過對內容的分類和標引,為資源庫的資源新增相應標識和屬性。
標引時,系統支援提供校驗規則,來保證標引的準確性。
對於資源庫中的稿件型別的資源,支援基於記憶和推薦的自動分類標引,稿件自帶屬性或者稿件內容語義分析的自動分類,提高內容分類效率。提供自動分類標引工具,透過人工干預方式提高分類的準確性,降低人工分類繁瑣和難度,在自動分類的基礎上再由人工對各類稿件進行分類調整確認和元資料編輯標引。
圖:專案標引體系建立
目前,自動分類標引技術已經在社會科學文獻出版社、社會科學出版社、農業出版社、科學出版社、英大傳媒集團等多個專案的資源標引工作中成功應用,極大的提高了資源管理效率。