首頁>科技>

最近,隨著模擬基準(如dm_control或OpenAI-Gym)的可用性不斷提高以及靈活可擴充套件的強化學習技術(DDPG,QT-Opt或Soft Actor)的發展,解決機器人控制問題的基於學習的方法取得了顯著發展。

儘管通過模擬學習是有效的,但是由於諸如物理現象的不正確建模和系統延遲之類的因素,這些模擬環境在部署到現實世界的機器人時經常遇到困難。這激發了在現實世界中直接在真實物理硬體上直接開發機器人控制解決方案的需求。

當前對物理硬體的大多數機器人技術研究都是在成本高,工業品質的機器人(PR2,Kuka臂,ShadowHand,Baxter等)上進行的,這些機器人旨在在受控環境中進行精確,受監控的操作。

很多小型實驗室想進行探索強化學習(RL),但研發經費有限的情況下,像這樣一直PR2,售價居然高達40萬美元,加上關稅基本上得300多萬人民幣,面對這樣高昂的裝置費用,只能望而卻步。

此外,這些機器人是圍繞著傳統控制方法設計的,這些控制方法側重於精度,可重複性和易於表徵。這與基於學習的方法形成鮮明對比,該方法對於不完善的感測和促動具有魯棒性,並且要求

(a)高度的彈性以允許在現實世界中的反覆試驗學習,

(b)低成本且易於實現維護以通過複製實現可伸縮性,

(c)可靠的重置機制以減輕嚴格的人工監控要求。

那麼,好訊息來了,谷歌最新發布相關開源機器人讓RL變得簡單和便宜。

在即將於CoRL 2019上發表的“ ROBEL:

低成本機器人學習的機器人基準”中,谷歌引入了具有成本效益的機器人的開源平臺和精心設計的基準,旨在促進實際物理硬體的研發。

與光學領域的光學平臺類似,ROBEL可以作為快速實驗平臺,支援各種實驗需求以及新的強化學習和控制方法的開發。

ROBEL由D'Claw和D'Kitty組成,D'Claw是幫助學習靈巧操作任務的三指機器人,而D'Kitty是能夠學習敏捷的腿部運動任務的四腿機器人。

如下圖:

三指機器人價格在3500美元左右。

這個四足機器人大概在4200美元左右。

左:自由度12 D'Kitty; 中:9個自由度D'Claw; 右圖:功能齊全的D'Claw設定D'Lantern。

為了使機器人相對便宜且易於構建,我們將ROBEL的設計基於現成的元件和常用的原型製作工具(3D列印或鐳射切割)。設計易於組裝,僅需幾個小時即可構建。此處提供詳細的零件清單(帶有CAD詳細資訊),組裝說明和入門軟體說明。

機器人硬體平臺全部是開源,機器人平臺是低成本的,模組化的,易於維護的,並且足夠強大,可以從頭開始支援硬體上的強化學習。

ROBEL基準

谷歌為D'Claw和D'Kitty設計了適合每個平臺的一組任務,可用於對現實世界中的機器人學習進行基準測試。

ROBEL的任務定義既包括密集任務目標,也包括稀疏任務目標,並在任務定義中引入了硬體安全性度量,例如,指示關節是否超出“安全”操作範圍或作用力閾值。

ROBEL還為所有任務提供模擬器,以促進演算法開發和快速原型設計。

D'Claw任務以三種常見的操縱行為為中心

姿勢轉彎擰緊

左:姿勢—符合環境的形狀中心:旋轉—將物件旋轉到指定角度。右:螺釘—連續旋轉象。

我們來看看他們動態圖:

三指手形機器人D'Claw,非常適合靈巧的操作

四足機器人

它的三種基準測試動作:

站立定向行走

左:站立—直立。 居中:東方—使標題與目標對齊。 右:步行—移至目標。

谷歌針對這些基準任務中的每一個,評估了幾種深度強化學習方法的課程(基於策略的,禁用策略的,演示加速的,監督的)。

Robel還為所有這些基準測試任務提供模擬器,幫助研究人員開發演算法和快速原型。

可復現,很魯棒

評估結果和最終策略作為基線包含在軟體包中,以進行比較。

完整的任務詳細資訊和基準效能可在技術報告中找到。

重現性和魯棒性ROBEL平臺具有強大的功能,可以直接進行硬體培訓,迄今已積累了超過14,000個小時的實際經驗。

一年來,這些平臺已經非常成熟。由於設計的模組化,維修非常簡單,幾乎不需要領域專業知識,從而使整個系統易於維護。為了建立平臺的可複製性和基準的可重複性,兩個不同的研究實驗室分別對ROBEL進行了研究。

本研究僅使用軟體分發和文件。使用ROBEL的設計檔案和組裝說明,兩個站點都可以複製兩個硬體平臺。基準任務都在兩個站點上構建的機器人上進行了培訓。

在下圖中,我們看到在兩個不同地點建造的兩個D'Claw機器人不僅展現出相似的訓練進度,而且收斂到相同的最終效能,從而確立了ROBEL基準的可重複性。

SAC對在不同實驗室位置開發的兩個真實D'Claw機器人執行任務的訓練效能。

兩條訓練曲線幾乎重合。換言之,在不同地點製造的兩個機器人不僅表現出相似的訓練進度,而且最終收斂到相同的效能水平。

總結

總之,ROBEL平臺是低成本,強大,可靠的,旨在滿足新興的基於學習的正規化的需求,這些正規化需要可伸縮性和彈性。

論文地址:

https://arxiv.org/pdf/1909.11639.pdf

最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 新一輪雙十一大戰已開啟 今年京東活動提前近半月