在現今大資料時代背景下,中醫電子病歷對中醫藥資訊的資料探勘起到十分重要的作用,因為它們往往是最直接的資料來源。這些資訊以純文字、非結構化的形式記錄在電子病歷中,不利於進行專門的資料探勘與分析。研究如何透過計算機演算法,把一個完整的中醫電子門診病歷文字的有價值資訊自動分類輸出,對中醫診療經驗的傳承與中醫電子病歷的資料探勘,以及更有效率地進行相關領域科研工作有著十分重要的作用。
目前,醫學命名實體識別的方法主要有基於字典、基於規則和基於機器學習的方法,隨著人工智慧時代的逐漸到來,基於機器學習甚至是深度學習的方法體現出了較大的優勢,併成為當前研究方法的主流。樸素貝葉斯演算法與詞向量(word2vec)都是比較成熟的文字分類機器學習演算法。
樸素貝葉斯演算法
樸素貝葉斯基於古典數學貝葉斯理論,假設樣本各屬性間相互條件獨立。判斷文字屬於哪個類別,根據文字屬於哪個類別的條件機率越大就判定為哪類,其中屬於某類別的條件機率是依據貝葉斯公式計算樣本的關鍵詞屬於各類別的條件機率乘積。從其原理可以看出,樸素貝葉斯演算法忽視了詞條間的相互依賴關係,不注重文字的上下文聯絡,且忽略了同義詞的影響,適用於提取文字中內容較短、同義詞少的欄位,如‘舌’‘脈’資訊。
圖1:樸素貝葉斯模型訓練
詞向量(word2vec)
word2vec 演算法是把每個分詞轉化為向量,從而可以刻畫每個分詞及其上下文的分詞集合。利用其上下文聯絡強的特點,詞向量(word2vec)適合於語段較長、有強上下文關聯的中文語句分類。word2vec 是一種淺層的神經網路演算法,主要包括2個模型,分別是連續詞袋模型模型(continuous bag of words,CBOW)和連續跳躍元語法模型(continuousSkip-gram model,Skip-gram),CBOW 模型透過詞的上下文對當前詞預測學習詞向量,而Skip-gram是根據當前詞對其上下文進行預測來學習的。
圖2:CBOW模型網路結構
P(輔助向量)和V(詞向量)在不斷的迭代中進行更新)
圖3:測試集測試流程圖
圖4:中醫電子病歷文字
圖5:中醫電子病歷模型分類抽取結果
圖6:模型測試結果
小結
利用樸素貝葉斯和 word2vec 兩種機器學習演算法。先是透過對訓練集的資料進行訓練,得到最終的模型,然後透過測試集進行生成模型的測試。經過對測試結果的分析,得到了一個較好的中醫電子門診病歷命名實體與資訊抽取結果。不足之處在於總體資料有限,且可供訓練的中醫電子病歷文字格式相對單一,造成了最終訓練得到的模型對該種中醫電子病歷文字格式產生了一定的特異性。本研究為提取中醫電子病歷文字資訊,從而進行更深一步的資料探勘和科研任務做了基礎性工作,提出了一種值得推廣的方法。
參考文獻:劉一斌,葉輝,易珺,曹東.基於樸素貝葉斯和word2vec的中醫電子病歷文字資訊抽取[J].世界科學技術-中醫藥現代化,2020,22(10):3563-3568.