首頁>技術>

從文字資料中提取價值

機器學習教育的許多重點都圍繞有監督的學習—預測值或分類—在您開始使用現實世界的資料集之前,一切都很好。與建立模型相比,以一致的格式獲取表格資料可能要花費更多時間。當使用文字資料時,這是很明顯的,因為您可能對許多文字感興趣的人都不關心質量或格式。生成非結構化資料的速度比結構化資料的增長速度快,因此使文字資料具有一致性是一項有用的技能。提取重要資訊對我來說是一個經常遇到的挑戰,因此這裡簡要介紹瞭如何使用Watson Knowledge Studio。

> Photo by Markus Spiske from Pexels

定義型別系統

Watson Knowledge Studio是一個註釋引擎,旨在從一段文字中提取實體和實體之間的關係。定義實體和關係(統稱為型別系統)是此過程的第一步。實體是您要提取的現實世界中的事物。它們可能具有子型別或多個角色(例如,"紐約"具有GeoPolitical角色和Destination角色)。實體也可能是共同引用的一部分,共同引用表示兩個標記何時引用同一事物(例如,"汽車墜毀,但未受到損壞")中的"汽車"和"它"是同一實體。關係是實體之間的二進位制關係(例如,"崩潰"和"汽車"在前面的示例中可能具有" eventOf"關係)。

> Watson Knowledge Studio Entity Recognition

如果您有一個具有許多實體和關係的型別系統,或者您的文件來自於技術含量很高的領域,則在建立ML模型的過程中請一名主題專家,並且可能需要型別系統。該型別系統可以從一個模型匯入/匯出到另一個模型中,以加快您的訓練過程,這在您要訓練需要識別兩個用例共有的實體的多個模型時非常有用。

人工註釋

建立型別系統後,需要選擇要提取的資料的代表性文件。目標是文件長度從一段到2000字不等。這些文件可以拆分並分配給不同的註釋器,分配之間要有一定程度的重疊,以確保準確性。註釋之間的衝突會被標記,並且可以由主題專家或專案經理解決。註釋者之間確實會出現分歧,因此最佳實踐是使文件保持註釋原則,以幫助指導團隊。註釋非常簡單,只需突出顯示單詞並選擇要為其新增標籤的實體即可。可以在標記的實體之間畫線以建立關係。可以透過雙擊要新增到共同引用中的實體來建立共同引用。

> Create relationships between entities

建立一個預註釋者

在完成一定程度的註釋後,您可能會注意到文件中的常見模式。您可以使用三種工具來建立自動預註釋器,以節省註釋時間。雖然您可以在開始人工註釋之前從技術上建立一個預註釋器,但是最好手動進行一些操作,以更好地瞭解您可能希望該預註釋器捕獲的常見模式。您的預註釋者建立的誤報可能會根據需要刪除。

辭典

詞典使您可以自動將特定單詞標記為實體的成員。例如,您可以將單詞" Honda"設定為自動識別為Manufacturer實體的一部分。同義詞也可以應用於每個實體,以幫助識別。您可以有多個詞典(每個詞典都有很多條目),可以將它們匯出,然後匯入到其他模型中,從而幫助Watson收集對您的領域的瞭解並加快模型建立過程。

規則

規則可讓您根據單詞周圍的實體將單詞分類為特定的實體。在本文的第一張圖片中,文字包含短語" 2005 Ford Escape",該短語遵循一種常見的年份模型來描述車輛。如果我們的詞典將"福特"一詞捕獲為製造商,那麼我們可以建立一條規則,規定當製造商後接4個字元的數字詞時,我們可以將其後的單詞標記為Model。

> Demonstration of a rule

正則表示式

正則表示式可以幫助您自動標記遵循特定模式的文字片段,而無需像字典中那樣提供特定示例。例如,電子郵件,電話號碼或ID碼。如果您想標記不特定於您的用例的模式(例如電子郵件),我建議您谷歌搜尋電子郵件RegEx並複製它,以獲取特定於您域的模式,請尋求以下幫助您團隊中知道正則表示式的人。

訓練您的註釋模型

一旦您的團隊為您要透過模型提取的每個實體標記了大約40個示例,則只需單擊WKS使用者介面中的"訓練和評估"按鈕,即可簡單地訓練模型。然後將建立一個ML模型,以找出應從文字中提取哪些資料。我沒有註釋足夠的文件來建立此示例的模型,但是有關模型版本的指標將在下面顯示。

> Train and evaluate your model

一旦擁有模型的版本1,新增到批註中的新文件將被自動批註,然後您可以確認這些自動批註。這樣可以加快註釋過程的速度,並幫助您快速獲得出色的版本2。

部署方式

WKS的另一個好處是一鍵式部署。該模型可以作為API部署到Watson自然語言理解(NLU),或者可以匯出以用於自定義環境或增強Watson Discovery(用於查找個人/內部公司文件的搜尋引擎)。模型的JSON響應將告訴您實體在什麼字元處開始和結束,實體之間的關係以及元資料(例如語言或詞性)。

結論

如果需要生成結構化資料進行分析,則需要以可重複的過程進行操作,以使生產資料不依賴任何手動步驟。建立註釋器是從具有比例尺的文字中提取格式化資料的最佳選擇。提取資料的目的甚至可能不是生成用於機器學習的資料,也可能是發現有關評論的基本分析,協助生成聊天機器人對話或從書面說明中提取產品屬性的資料。

10
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 特殊資料結構:單調棧