OpenAI的研究人員開發了一種新方法,可以將複雜的操作技能從模擬環境轉移到現實世界中。
一年多前,總部位於舊金山的人工智慧研究實驗室OpenAI宣佈,其訓練的一隻機器手能夠以驚人的靈巧程度操縱魔方。
這聽起來可能並不令人驚奇。但在人工智慧領域,它令人印象深刻,原因有二:首先,這隻手通過強化學習演算法自學了如何擺弄魔方;其次,所有的訓練都是在模擬環境中進行的,但它成功地將其轉化為現實世界。從這兩個方面來說,這都是邁向更敏捷機器人的重要一步。
“我有點驚訝,”麻省理工學院(MIT)機器人專家和教授萊斯利•克爾布林(Leslie Kaelbling)在談到2018年的研究結果時說,“我從沒想過他們會做出這樣的事來。”
在近期的一篇新論文中,OpenAI釋出了它的機器手Dactyl的最新成果。這一次Dactyl學會了用一隻手來轉魔方,同樣是通過模擬中的強化學習。同樣,這並不是機器人破解了古老的謎題,而是這一成就提高了機器人的靈活性。
“這是一個非常困難的問題,”密歇根大學專門研究機器操作的機器人專家德米特里•貝倫森(Dmitry Berenson)表示。“事實上,用物理機器手實操轉魔方要比理論上通過模擬轉魔方難得多。”
從虛擬世界到物理世界傳統上,機器人只能以非常簡單的方式操縱物體。儘管強化學習演算法在完成軟體中的複雜任務方面取得了巨大成功,比如在古老的圍棋遊戲中擊敗了最優秀的人類棋手,但用它們來訓練一臺物理機器卻沒有那麼簡單。這是因為演算法必須通過反覆試驗來完善自己,試驗次數可能需要達到數百萬次。一個物理機器人要在現實世界中做到這一點,就需要很長的時間。
為了避免這種情況,機器人專家使用模擬技術:他們為自己的機器人建立一個虛擬模型,並對其進行虛擬訓練,以完成手頭的任務。該演算法在安全的數字空間中學習,然後可以移植到物理機器人身上。但這一過程也伴隨著自身的挑戰。建立一個完全複製現實世界中所有相同物理定律、物質屬性和操作行為的虛擬模型幾乎不可能,更不用說遇到一些意想不到的情況了。因此,機器人和任務越複雜,在物理現實中應用虛擬訓練的演算法就越困難。
這就是讓Kaelbling對OpenAI一年前的結果印象深刻的地方。成功的關鍵是實驗室打亂了每一輪訓練的模擬條件,使演算法更能適應不同的可能性。
“他們用各種瘋狂的方式把模擬器弄亂了,”Kaelbling說,“他們不僅改變了重力的大小,還改變了重力指向的方向。因此,通過嘗試構建一個能在所有這些瘋狂的模擬排列下可靠工作的策略,該演算法才可以在真實的機器人中工作。”
在最新的論文中,OpenAI將這種技術又向前推進了一步。在此之前,研究人員必須通過手工選擇他們認為會產生更好演算法的排列方式來隨機化環境中的引數。現在的訓練系統自己就能做到這一點。每當機器人在現有環境中達到一定的熟練程度時,模擬器就會調整自己的引數,使訓練條件變得更加困難。
其結果是一個更加穩定的演算法,可以按照現實生活中旋轉魔方所需的精度移動。通過測試,研究人員發現,Dactyl在各種沒有經過訓練的情況下也能成功地解決魔方。比如,它戴著橡膠手套,幾根手指被綁在一起,還有一個填充玩具長頸鹿在戳它。
解鎖通用機器人?OpenAI認為,最新的研究結果提供了強有力的證據,證明他們的方法將解鎖更多的通用型機器人,這些機器人可以適應開放式的環境,比如家庭廚房。OpenAI的Marcin Andrychowicz說:“魔方是世界上最複雜的剛性物體之一。”他說,儘管有一些涉及更多物體或可變形物體的更復雜的任務,但他相信實驗室的方法可以訓練操作所有這些物體的機器人:“我認為這種方法是機器人廣泛採用的方法。”
然而,Berenson和Kaelbling仍然持懷疑態度。“大家可能會想,是不是存在一個統一的理論或系統,而OpenAI現在只是將其應用於這個任務和那個任務,”Berenson在談到之前和當前的論文時說,事實並非如此。這些是獨立的任務。有通用的元件,但也有大量的工程來讓每個新任務工作。
“這就是為什麼我覺得有點不舒服的原因,”他說,“我認為這是一個針對特定應用的非常具體的系統。”
Berenson認為,問題的一部分在於強化學習本身。從本質上講,這種技術是為了掌握一件特定的事情而設計的,具有處理變化的靈活性。但在現實世界中,潛在變化的數量超出了可以合理模擬的範圍。例如,在一個清潔任務中,你可能會有不同種類的拖把,不同種類的潑灑物,和不同種類的地板。
強化學習也主要是為了從頭開始學習新能力而設計的。在機器人效率低下的情況下,人類的學習方式並不適用。“如果你已經是一個相當有能力的人,我教你在廚房裡幫忙的時候,你不需要重新學習你的整個運動控制”,Kaelbling說。
Berenson認為,要超越這些限制,就需要其他更傳統的機器人技術。