回覆列表
-
1 # 機器之心Pro
-
2 # cnBeta
據外媒報道,亞馬遜網路服務(AWS)宣佈了對其識別服務的一系列更新,為雲客戶提供基於機器學習的計算機視覺功能。系統現在將能夠檢測和識別影象中的文字,以便客戶可以輸入標誌和文件,並將這些影象的內容進行進一步處理。
這意味著識別服務可以被用於透過僅為處理文字資料而構建的系統,使得物理世界的影象更易於理解。
客戶也將能夠在數百萬張面孔的集合上進行實時人臉搜尋。例如,Rekognition可用於驗證一個人的影象,並與現有資料庫中的另一個影象相匹配,資料庫擁有多達數千萬張影象,達到亞秒級延遲效能。
這對執法機構特別有用,尤其是當客戶想要將一個人的照片與已存檔的影象相匹配時。除此之外,與之前的15張人臉限制相比,系統還可以在一張照片中檢測多達100個不同的人臉。
這些變化是AWS,Google,Microsoft,IBM和Salesforce等雲提供商之間持續競爭的一部分。所有這些企業都試圖透過為客戶提供預先構建的系統來實現智慧化結果,從而使機器學習革命更加便捷。
此外,像Rekognition這樣的系統可以幫助客戶吸引到不同的雲平臺,帶來更多的工作量,並長時間保持業務關係。
-
3 # 大叔熱愛阿拉蕾
深度學習的支撐基礎是超強計算力。如果計算力(GPU或者其它什麼加速卡)能再翻上幾百倍,相信又是一大波突破。另一方面,無監督學習或者弱監督學習的突破,也會讓CV再突飛猛進一把
計算機視覺作為一個領域相當複雜。即是對於人類大腦來講,視覺也是一項很難解決的任務,處理視覺刺激佔用了全部大腦神經元的 2/3。一張圖片包含很多屬性,影片包含的資訊則更多。
卷積神經網路極大地推動了計算機視覺的發展。Yann LeCun 首先成功訓練了一個叫做 MNIST 的手寫數字識別資料集,它成為了機器學習世界的「hello world」。接著 2012 年 Geoffrey Hinton 團隊已能夠打造一個大規模的卷積網路,它帶有:
可以端到端的方式幫助訓練深度結構的 ReLU。
正則化技術 Dropout,可以避免網路過擬合訓練資料。
使用 GPU 的硬體加速,使訓練速度迅速提升幾個數量級,週期從數月縮減至數週/數天。
2012 年的突破致使人們更有興趣使用卷積網路和深度學習嘗試完成視覺識別任務。我們看到物體檢測領域出現了很多有趣的創新,比如 R-CNN。其他創新則推動了精度的提升與推理速度的加快,比如 YOLO。如今,我們很容易在 MNIST 上訓練完成一個精度高達 99% 的模型,這類資料集已不再是挑戰。但這並不意味著計算機視覺問題得到解決。使用深度學習的絕大多數計算機視覺系統存在如下問題:
資料匱乏。訓練需要每個類別的大量例項。
時常發生過擬合/欠擬合。深度學習正如其他機器學習演算法一樣也傾向於此。
它們不是梯度學習者。也就是說,一旦訓練完成,系統已經成形,如果不進行大量的重新訓練,則很難編碼新的物體。
因此,計算機視覺的下一個挑戰是設計並實現可以解決上述問題的系統;計算機視覺最具發展潛力的領域是:
一次性學習。這在自然語言處理中也同樣重要。為了解決這一問題我們需要確保機器學習模型可以從表面看似乎無關聯的概念學習遷移知識。一次性學習能夠幫助我們在機器人和自動駕駛中構建更多有趣的應用。
無監督學習:透過與環境互動從而學習發現物體的視覺系統是一個非常有吸引力的研究領域。注意到該方法似乎使用了一些分割形式實際上非常有趣。無監督自動發現物體很重要。想象一下一個機器人被丟在其不熟悉的環境中,它應該具備自行區分環境中的物體的能力。一個遊樂場上的小孩可以輕鬆做到這一點。
梯度學習:機器人系統需要逐漸地學習新事物。每次我們玩遊戲都是在大量地這樣做。我們的視覺系統能夠做到逐漸學習而又不遺忘其他已學習的重要模型,或者無須重新訓練整個大腦。這是如何發生的呢?對答案的良好搜尋將會很有成果。
我們也具有對旋轉、縮放、位置保持不變的系統,但是真實的感知會恢復這些轉換。比如我們的視覺系統能夠精確分辨已知物體的姿態,從而能夠與之正確互動。目前對於機器學習模型來說,精確恢復這些轉換仍是一項挑戰,這就是為什麼我們依然使用 3D 計算機視覺技術完成這些特定的任務。比如,SLAM 的任務是恢復未知環境中觀察者的位置,同時並對映這個環境,你如何以可微分的機器學習模型的方式制定這樣一個問題?實際上這完全是一個不可微分的問題。
從影片資料而不是靜態影象中學習是一個非常有吸引力的研究方向,因為影片包含額外的時間維度,這意味其中有額外的資訊。我們可以構建學習演算法來利用這種資訊。但這並沒有看上去那麼容易。處理影片的計算量非常大,很難設計出模型。