-
1 # 追科技的風箏
-
2 # Testin雲測
演算法、算力和資料是AI發展三大要素,這三要素存在著既相互制約又相互促進的關係,單個元素的爆發會讓AI進步,形成落地場景,進而帶來其他兩個元素的迭代和進步。
關於問題,可以先從資料進化三個階段來看:
第一階段:網際網路資料,手機電腦等裝置的普及改變人們的生活,這些裝置上的感測器如攝像頭,麥克風以及我們的每一個與App的互動動作,正在構建一個虛擬世界。據IBM統計,2017年的資料產生量是歷史資料量的90%,想必隨著時間的推移,這個數字依然呈現指數增長。
網際網路所產生的大量資料加快了人工智慧發展的步伐。眾多資料集服務公司,以及學術機構的開源資料集,他們的貢獻正在讓資料如水源一般,降低了AI企業資料獲取的難度,加快了演算法迭代的步伐。
第二階段:主動式獲取資料。
透過已有資料集或資料爬蟲獲取資料已經很難再讓AI進步。正如人臉的圖片透過網際網路可以很輕易的獲取,但同一人不同角度的人臉照片卻十分難獲取。以主動的方式去獲取資料正在成為主流。
最開始透過眾包形式完成資料的採集,使用者透過註冊平臺完成可以領取資料採集任務,資料採集並上傳後便可獲得獎勵。以亞馬遜的Mturk規模最大,國內有眾多企業效仿。但由於其低門檻特性,在沒有專人指導的情況下,對於資料的質量以及AI企業對於場景的複雜度不能太高。
第三階段:跨界多元資料。
進階的演化出了定製化場景採集模式。作為AI資料服務行業的典型代表,雲測旗下AI資料服務品牌“Testin有數(原「雲測資料」)”正在隨著AI企業資料需求不斷進化,透過自建資料場景實驗室和資料標註基地,打造專業的定製化採集和高質量的標註隊伍,來幫助AI企業獲取更多優質的特定場景資料。
以自動駕駛為例,從最早基於攝像頭做感知的方案,到引入鐳射雷達對於物體的測距進行彌補,到之後可能會引入更多其他感知裝置來提升感知演算法。未來多感測器的解決方案將會普遍應用到我們所使用的AI產品中,他的感知模式將不僅僅是基於影象,聲音和文字,將會引入更多模態的資料。
通過了解資料進化的3個階段,我們看到,未來AI在落地過程中會不斷產生資料,但也需要繼續投餵定製化的資料。人類不是AI的飼料,而是行為產生的資料是AI的飼料。
在Testin有數(原「雲測資料」)看來,AI最終是為了落地、為了被使用,所以對於AI所需的資料質量要求會更高更精準、會有更多的定製化場景下的資料需求,在提高資料安全與隱私保護之外,保證資料的唯一性、場景化,才能真正幫助企業打造資料核心壁壘,大幅度推動AI進一步落地。
回覆列表
大資料的分類。大資料分為結構化、非結構化資料兩類。結構化資料,簡而言之就是儲存於普通的資料庫之中的資料,可以透過資料庫進行日常管理。反之,非結構化的資料,不儲存在資料庫中,包括郵件往來、手機拍的影片照片、大量的消費資料等,人工智慧的使用等,其實也是非結構化資料。大資料離不開人工智慧。大資料的使用與分析是一門深奧的學問。人工智慧技術透過異常檢測、貝葉斯原理、人群行為預測等方法,並且使用了自然語言處理、影象解析、語音識別等技術挖掘資料,來代替傳統的人工演算法。資料使用的本身就是資料。人工智慧用傳統無法處理的方式來處理資料。比如我們透過人工智慧來預測人類患病的機率,我們會將患者的病症、撥出的氣體,甚至口腔的味道,全部轉化為資料,透過資料來精準判斷。不同人工智慧技術的使用,可能有不同的結果,每次使用過程,也是一種資料。透過對這些資料的分析總結,我們可以最佳化人工智慧的設計與應用,更是對人工智慧的一種控制。歡迎關注,批評指正。