首頁>科技>

重新排列物體(比如整理書架上的書籍,移動餐桌上的餐具,或者推一堆咖啡豆)是機械臂一項基本技能,它可以讓機器人與我們多樣化、非結構化的世界進行身體互動。

儘管對於人們來說很容易,但是對於具身機器學習系統(embodied machine learning systems)來說,完成這些任務仍然是一個開放的研究挑戰,因為它需要高水平和低水平兼備的感知推理。

例如,當堆疊一堆書時,你可以考慮書應該堆放在哪裡、以何種順序,同時確保書的邊緣彼此對齊形成一堆整齊的書。

在機器學習的許多應用領域中,模型結構中的簡單差異可以表現出大不相同的泛化特性。因此,人們可能會問,是否有某些深層網路結構支援重新排列問題的簡單底層元素。

例如,卷積結構在計算機視覺中很常見,因為它具有平移不變性,即使影象發生移動也會產生相同的響應,而Transformer結構在語言處理中很常見,因為它們利用自注意力來捕捉長距離的上下文相關性。

在機器人技術應用中,一個常見的結構是在學習模型中使用以物件為中心的表示,例如姿勢、關鍵點或物件描述符( object descriptors ),但是這些表示需要額外的訓練資料(通常是手動註釋) ,並且很難描述複雜的場景,例如變形物(例如 playdough)、液體(蜂蜜)或成堆的東西(剁洋蔥)。

最近,谷歌AI的研究人員提出了 Transporter Network,這是一個用於學習基於視覺的重排任務的簡單模型結構。

Transporter Network 使用一種新穎的方法來實現3D 空間理解,避免了依賴於以物件為中心的表示,使得它們對基於視覺的操作更加通用,但是比基準的端到端的替代方法更有效率。

因此,它適合快速和實用的訓練真正的機器人。同時研究人員還發布了一個與 Ravens 一起的 Transporter Nets 的開源實現,這是基於十項視覺的操作任務的新的模擬基準套件。

Transporter Network:為機器操作重新排列視覺世界

Transporter Networks 背後的關鍵思想是:人們可以將重新排列問題表述為學習如何移動一塊三維空間。

3D 空間並不依賴於物件的明確定義(這一定會在捕捉所有邊緣情況方面遇到困難) ,而是對可以作為被重新排列的原子單元(atomic units)的更廣泛的定義,它可以廣泛地包含一個物件、一個物件的一部分或多個物件等。

Transporter Nets 透過捕捉3D視覺世界的深層表徵來利用這種結構,然後將其部分覆蓋在自身上,以想象各種可能的3D空間重排。然後,它選擇在訓練過程中看到的最匹配的重新排列方式(如來自專家演示的結果) ,並使用它們來引數化機器人的動作。

這個方式允許 Transporter Nets 泛化到看不見的物件,並使它們能夠更好地利用資料中的幾何對稱性,以便它們能夠外推到新的場景配置當中去。Transporter Nets 適用於機器人操作的各種各樣的重新排列任務,擴充套件了早期的模型,比如基於啟示(affordance-based)的操作和 TossingBot,它們只關注抓取和拋擲。

Ravens Benchmark

為了在一致的環境中評估 Transporter Nets 的效能,以便與基線和消融進行公平的比較,谷歌研究人員開發了 Ravens,這是一個由10個基於視覺的重排任務組成的基準測試套件。

Ravens 提供了一個內建隨機oracle的 Gym API 來評估模仿學習方法的樣本效率。Ravens 避免了不能轉化為實際設定的假設: 觀察資料只包含 RGB-D 影象和攝像機引數; 動作是終端執行器姿態(與逆運動學轉換到關節位置)。

對這10個任務的實驗表明,Transporter Nets 比其他端到端方法的效率高出數量級的區別,並且只需100個演示就可以在許多工上獲得90% 以上的成功率,而基線方法很難用同樣數量的資料進行泛化。

在實踐中,這使得收集足夠的演示成為在真實機器人上訓練這些模型的一個更可行的選擇。

Highlights

這裡給出10個例子演示,Transporter Nets 可以學習挑選和放置任務,如堆疊盤子;多模態任務,如對齊任何一個角落的一個盒子上的桌面標記,或建立一個金字塔的塊。

透過利用閉環的視覺反饋,Transporter Nets 有能力學習各種多步的連續任務,並進行適度的演示: 例如漢諾塔的移動磁碟,或組裝在訓練期間沒有看到的新物體的成套工具等。

這些任務具有相當的“長視野”,這意味著為了解決任務,模型必須正確地排列許多單個選擇的順序,同時策略也傾向於學習緊急恢復行為(emergent recovery behaviors)。

關於這些結果的一個令人驚訝的事情是,除了感知之外,模型還開始學習類似於高階計劃的行為。例如,要解決漢諾塔問題,模型必須選擇磁碟移動的下一步,這需要基於當前可見磁碟及其位置識別狀態。這些行為表明,對於所有內建的不變性,模型可以將其能力集中於學習操作中更高階的模式。

Transporter Nets 也可以學習使用任何由兩個終端執行器定義的運動原語的任務,例如將成堆的小物體推入一個目標設定中,或者重新配置一個可變形的繩子來連線一個三邊形的兩個端點。這表明剛性空間位移可以作為非剛性位移的有用前提。

結論

Transporter Nets 為基於視覺的操作學習提供了一種很有前途的方法,但也存在一定的侷限性。例如,它們可能會受到噪聲3D資料的影響,其次,只演示了稀疏的基於方向點的控制與運動原語,目前還不清楚如何超越空間行動空間的力量或基於扭矩的動作來擴充套件它們。

詳細講解可以觀看影片:

https://www.youtube.com/watch?v=8afHfReCfPo&feature=emb_logo

參考連結:

https://ai.googleblog.com/

4
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 採用兩顆5000萬畫素鏡頭?OPPO發力拍照,能否取代華為?