首頁>Club>
11
回覆列表
  • 1 # 蔓莓愛運動

    資料標註最基本的就是畫框,比如檢測目標是車,標註員就需要把一張圖上的所有車都標出來,畫框要完全卡住車的外接矩形,框得不準確機器就可能“學壞”。再比如人的姿態識別,就包括18個關鍵點,經過訓練的標註員才能掌握這些關鍵點的標註,標註完成的資料也才能符合機器學習的標準。無人零售、無人駕駛等都需要大量的人力,基於用工成本的問題,除了隱私資料之外,他們會把標註工作放在第三世界國家完成,馬來西亞、泰國、印度等國家都有資料標註分公司。擴充套件資料常見的報道中,資料標註總被描述為“血汗工廠”,這項工作和從業者被描述得廉價低質,人被重複性機械式的勞動異化。在王金橋的解釋下,這一刻板印象也被逐漸打破。目前這種大量的人工標註是有價值的,因為理論上解決問題很難,但有了大量資料,設計深度學習網路,可以在特定場景特定應用中用資料訓練神經網路,從而在很多場景中可以讓AI快速落地佔領市場、驅動行業應用、促進行業升級和迭代。“比如在手機玻璃缺陷、高鐵軌道的缺陷、電網高壓線絕緣子損壞等檢測工作中,無人機拍攝畫面後,由人來檢測,隨著資料量增加,機器得到的訓練越來越充分,機器慢慢可以自動檢測,類似工作可以很大程度上由機器代勞。”王金橋說,目前人工智慧的智慧性雖然比較弱,但在各行各業都會帶來改變,這是AI推動產業革命的機會。參考資料來源:

    中國新聞網-人工智慧背後的人工力量:機器學習必需資料標註

  • 2 # AI智慧

    資料標註需求持續增加

    現在科研界研究的都是無監督、小樣本的深度學習,透過三維合成數據,用虛實結合的資料生成方式來訓練機器,儘量減少資料的採集和標註,讓機器自主學習、自主進化。

    由於缺乏理論上的突破性技術,所以雖然技術增長速度很快,但整體水平還比較低,目前的深度學習還是依賴基於統計意義的大資料模型,這要求資料足夠多、足夠均衡、基本滿足真實世界的分佈。

    因此,標註這項工作會一直存在。

    隨著無監督、小樣本深度學習的進步,重複性標註的工作量會越來越少。

    機器的識別和人一樣,人經過幾千年的進化,用語言用文字記錄和儲存幾千年的文明,所以看到桌子就知道是桌子,看到靈芝知道是靈芝。機器也需要不斷理解更多的內容,有資料標籤,它才能學習,才會有智慧。

    資料的加工是一個長期存在的過程,由畫框到基礎詞彙,慢慢形成自己的知識圖譜,才能自我推理和思考。

    目前的資料標註公司基本採取“計件付費”的模式,標註員的待遇與任務量和難度直接相關,熟練工一天能標幾千張圖片,月收入最高過萬。這項工作也有一定專業性,受過培訓才知道怎麼標、標得清楚,人也要認真細心。

    每天產生的資料量太大了,資料量持續增加,對標註的需求也持續增加。

    京東資料標註網站:http://wgtask.jd.com

    阿里巴巴資料標註網站:http://www.alilabel.com/

    延伸閱讀

    AI資料服務發展新方向:細分化、多模態、專業化

    資料表明,當前AI發展出現了細分化、多模態以及專業化三大特徵。相應的,新變化對於AI資料服務行業也形成了一定的影響與方向指引。

    當前AI已經進入技術落地階段,應用場景涉及安防、金融、家居、交通等各大行業。而未來,在資料標註行業,從業者也將隨著AI行業而一同進入細分市場追逐階段。

    同時多模態也成為了AI技術發展的一個特徵。所謂多模態,即是對多維時間、空間、環境資料的感知與融合。如當前的自動駕駛需要雷達+攝像頭才能跑的更穩,安防行業需要攝像頭+雷達紅外RFID才能感知得更精準、更真實。而在資料服務產業,企業也需要適應AI技術發展的多模態特徵,掌握對多維感測器融合的資料採集與標註。

    此外,儘管當前AI技術已經進入落地階段,但是頭部AI企業的落地場景相較傳統行業的AI落地場景,在技術上會更有前沿性。而這些企業的一些先進技術研究也很有可能成為未來資料服務行業的一大發展方向,所以資料服務企業也需要在這些前沿場景中不斷探索,才能在行業競爭中獲得長期發展。

  • 中秋節和大豐收的關聯?
  • 丈母孃經常在我老婆面前使壞,如今生重病,讓我和小舅子各出20萬治病,該出嗎?