什麼是資料標註?
在瞭解資料標註之前,先來了解人工智慧。
人工智慧(Artificial Intelligence),英文縮寫為AI。它是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。它企圖瞭解智慧的實質,並生產出一種新的能以人類智慧相似的方式做出反應的智慧機器,該領域的研究包括機器人、語言識別、影象識別、自然語言處理和專家系統等。人工智慧從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智慧帶來的科技產品,將會是人類智慧的“容器”。
人工智慧,其實是部分替代人的認知功能。人工智慧演算法是資料驅動型演算法,也就是說,如果想實現人工智慧,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。
要學習資料中的規律,就要假設資料是有正確答案的,很多資料是不存在所謂答案的,那麼如果我們想讓資料能有“規律”就要給資料標註。
回想一下我們是如何學習的,例如我們學習認識貓,那麼就需要有人帶著一隻貓或者貓的圖片到你面前告訴你,“這是一隻貓”。然後以後你遇到了貓,你才知道這東西叫做“貓”。
類比機器學習,我們要教它認識一隻貓,直接給它一張貓的圖片,它是完全不知道這是什麼。
我們得先有貓的圖片,上面標註著“貓”這個字,然後機器透過學習了大量的圖片中的特徵,這時候再給機器任意一張貓的圖片,它就能認出來這是貓了。
這裡順帶提一下訓練集和測試集的概念。訓練集和測試集都是標註過的資料,還是以貓為例子,假設我們有1000張標註著“貓”的圖片,那麼我們可以拿800張作為訓練集,200張作為測試集。機器從800張貓的圖片中學習得到一個模型,然後將剩下的200張機器沒有見過的圖片去給它識別,然後我們就能夠得到這個模型的準確率了。
所以目前人工智慧需要標註大量資料,即對原始資訊進行資料標註。
資料標註為透過分類、畫框、標註、註釋等,對圖片、語音、文字等資料進行處理,標記物件的特徵,以作為機器學習基礎素材的過程。
資料標註是大部分人工智慧演算法得以有效執行的關鍵環節。
資料標註的過程是透過人工貼標的方式,為機器系統可供學習的樣本。資料標註是把需要機器識別和分辨的資料貼上標籤,然後讓計算機不斷地學習這些資料的特徵,最終實現計算機能夠自主識別。
資料標註的分類
影象標註影象標註問題的本質是視覺到語言的問題,用通俗的話說,就是“看圖說話”。
語音標註 文字標註文字標註是指,將文字、符號在內的文字進行標註,讓計算機能夠讀懂識別,從而應用於人類的生產生活領域。
影片標註影片標註指的是對影片進行分析,即對影片幀的資訊進行標註。
資料標註常用工具一般來說,資料標註工具有圖片標註、文字標註、語音標註、影片標註。
丨圖片標註
工具比較多,常用的有labelImg、labelme、CVAT等工具,每個工具都可以對影象進行標註。
丨文字標註
常用的有YEDDA、SMART、Doccano等。
丨語音標註
有EchoML、Aubio以及Praat等工具。
丨影片標註
相對來說少一些,有UltimateLabeling、VATIC、VoTT等工具。
丨彙總
常用的標註工具這裡總結一下,按照執行平臺、標註形式、標註格式展示,Windows來說常用的標註工具有LabelImg、LabelMe、VOTT、Praat等。
名稱 |
簡介 |
執行平臺 |
標註形式 |
標註格式 |
LabelImg |
著名的影象標註工具 |
Windows,Linux,Mac |
矩形框 |
VOC和YOLO格式 |
LabelMe |
著名的圖形介面標註工具,能夠標註影象和影片 |
Windows,Linux,Mac |
多邊形、矩形、圓形、多段線、線段、點 |
VOC 和 COCO 格式 |
RectLabel |
影象標註 |
Mac |
多邊形、矩形、多 段線線段、點 |
YOLO、KITTI、 COCO1、CSV |
VOTT |
基於 Web 方式本地部署的標註工具,能夠標註影象和影片 | Windows,Linux,Mac |
多邊形、矩形、點 |
TFRecord、CSV、VoTT |
LabelBox |
適用於大型專案的標註工具,基於Web,能夠標註影象、影片和文字 |
- |
多邊形、矩形、線、 點、巢狀分類 |
JSON 格式 |
VIA |
VGG的影象標註工具,也支援影片和音訊標註 |
- |
矩形、圓、橢圓、多邊形、點和線 |
JSON 格式 |
COCO UI |
用於標註 COCO 資料集的工具,基於 Web 方式 |
- |
矩形、多邊形、 點和線 |
COCO格式 |
Vatic |
Vatic 是一個帶有目標跟蹤的影片標註工具,適合目標檢測任務 |
Linux |
- |
VOC 格式 |
BRAT |
基於 Web 的文字標註工具,主要用於對文字的結構化標註 | Linux |
- |
ANN 格式 |
DeepDive |
處理非結構化文字的標註工具 |
Linux |
- |
NLP 格式 |
Praat |
語音標註工具 |
Windows,Unix,Linux,Mac |
- |
JSON 格式 |
資料標註應用場景
自動駕駛在汽車自動駕駛的過程中,想要讓汽車本身的演算法做到處理更多、更復雜的場景,背後就需要有海量的真實道路資料做支撐。
而這就需要依靠資料標註。
智慧安防智慧安防是人工智慧與資訊科技結合的關鍵領域,對於城市與民生髮展有重要的意義。透過生物識別、行為監測等技術手段,廣泛地應用於城市道路監控、車輛人流監測、公共安全防範等領域。
人臉標註在智慧安防中主要應用於人臉識別與身份識別。
物品標註在智慧安防中,物品標註需要和行為標註結合。
智慧醫療智慧醫療是透過打造健康檔案區域醫療資訊平臺,利用最先進的物聯網技術,實現患者與醫務人員、醫療機構、醫療裝置之間的互動,逐步達到資訊化。AI與醫療行業的結合將有望迎來跨越式發展。
醫療影像標註是對醫療影像進行區域標註及分類標註,多應用於輔助臨床診斷。人工智慧透過學習大量的醫療影像標註資料集,將會很好的輔助醫生進行臨床診斷以及提出治療方案。
除了上面幾個應用,資料標註在金融行業、家居行業、電子商務等行業也有著重要的應用。