現階段,實現人工智慧的方式主要以機器學習,尤其是深度學習方式為主。
機器學習的核心價值是透過特定演算法分析已知資料,識別隱藏在資料中的可能性,並基於此獨立或輔助使用者進行預測與決策。
而機器學習實現價值的前提是存在大量可供分析的結構化資料集,以此訓練、修正、完善演算法模型,再利用模型挖掘企業資料的真正價值。因此,為機器學習演算法訓練、最佳化提供高質量的基礎資料服務成為當下人工智慧行業的熱點之一。
目前,人工智慧基礎資料服務行業主要以人力勞動方式為主,基礎資料標註員透過雙手為AI演算法模型的訓練提供了種類繁多,且高質量的結構化資料集。
但隨著AI應用在場景化方向上快速擴充套件,這種傳統的依靠人力的方式在執行效率以及產出質量上均暴露出眾多問題,提高行業人機協作能力,重視AI對於基礎資料服務行業的反哺作用,是下一階段提升行業資料生產力的關鍵。
透過在不同資料處理階段,如在採集階段引入AI篩查,在標註階段引入AI預標註,在稽核質檢階段引入AI質檢,可有效提高業務整體執行效率,並淡化人力在業務執行過程中的絕對影響力,間接提升資料質量。
一.框選物體檢測
框選標註是資料標註領域最常見的標註型別之一,可細分為2D框選以及3D框選兩種方式。
常用於自動駕駛、新零售、AI教育等具體場景,主要針對影象中的汽車、人體等執行框選操作。
傳統執行方式下,框選操作全部由人工完成,對標註員的熟練度以及影象理解能力要求較高:
手動標註效果
SEED資料服務平臺針對不同細分場景,設定了不同等階的AI輔助自動框選功能,平臺演算法自動完成物體檢測,實現一鍵自動貼邊,標註效率成倍翻升:
SEED平臺自動框選物體檢測
二.多邊形影象分割
多邊形標註依據標註物件的數量多少,可分為單個物體多邊形標註以及全景語義分割標註,其中全景語義分割廣泛應用於自動駕駛,無人機等領域。
傳統執行方式下,標註員需要手動描繪出標註物件的邊界,耗時耗力,且貼邊精準度很難達到畫素級:
手動標註效果
SEED資料服務平臺提供完備的高精影象分割輔助功能,可以實現畫素級自動貼邊,標註效率提升10倍以上:
SEED平臺自動影象分割
三.OCR自動識別轉寫
OCR轉寫是將影象中的文字內容轉寫為帶標籤的文字資訊,以供影象文字識別演算法的訓練與呼叫。
傳統執行方式下,標註員需要手動拼寫出影象中的文字:
手動轉寫效果
SEED資料服務平臺提供的高階版OCR自動識別轉寫功能,可以實現自動識別轉寫,充分解放標註員的雙手:
SEED平臺OCR自動識別轉寫
四.3D點雲物體檢測
3D鐳射點雲資料可以為自動駕駛提供精確的三維立體影象,是自動駕駛環境感知以及決策規劃模組常用的資料型別之一。
不同於2D影象,鐳射點雲資料為3維影象,需要分別標註出X軸、Y軸以及Z軸的邊界,對標註員的3維空間想象能力要求較高。
傳統執行模式下,標註員需要依次標註出X軸、Y軸以及Z軸的邊界:
手動標註效果
SEED資料服務平臺提供的3D物體檢測以及自動貼合的功能,可以實現在3維空間的自動貼合,弱化標註員個人能力對於標註結果的直接影響,提升整體標註效率:
SEED平臺3D點雲物體檢測
不過,我們也需要注意,目前AI預標註扮演的更多是輔助類角色,尚不能完全代替人類執行全部資料標註操作。但演算法預處理技術作為基礎資料服務行業內的有益嘗試,未來的應用空間將會十分廣闊,甚至將成為AI基礎資料服務行業精細化管理中鮮明的競爭壁壘。