首頁>科學>

對於一隻自然界的動物來說,在各種陌生環境下靈活切換相應的運動技能,似乎是一種條件反射和先天本領,但如何讓機器人掌握這種能力,卻非常具有挑戰性,這也是全球機器人專家們長期探索的課題。

2020 年 12 月,一項由華人科學家團隊合作完成的機器人創新成果,當選為 Science Robotics 雜誌的月度封面論文,研究人員來自英國愛丁堡大學先進智慧機器人實驗室與浙江大學朱秋國教授帶領的機器人團隊。

基於四足機器人,科研人員提出了一種多專家學習框架,讓機器人具備了應對各種意外情況的自主能力,並在運動響應敏捷度和靈活度方面表現優異。

關於本期封面論文的演算法特點和貢獻,DeepTech 聯絡到論文的通訊作者李智彬進行了一番交流。

讓機器狗“集各家之長於一身”

李智彬目前是愛丁堡大學資訊學院的助理教授,領銜先進智慧機器人實驗室(主頁見文末)。他的研究方向包括機器人動態運動控制、實現(超)人類級別的機器人自主移動、多臂協調和抓取操作等,同時在機器人硬體平臺、力和柔順控制等領域也有豐富經驗。

據他介紹,機器人在實際應用中通常會面臨兩種挑戰:一是在任務層,二是在演算法方面。

首先,傳統方法中,機器人要去執行某種任務,需要演算法工程師、程式設計師們對其進行程式設計,一般而言都是針對某一個具體任務來程式設計。這種方法無疑存在短板,比如說野外救災或是地震現場搜救工作中,機器人所處的環境將會非常複雜,地面可能有障礙物阻攔、崎嶇不平、打滑問題,機器人也會出現各種摔倒和其他意外情況。

如果出現 100 種或者 1000 種不同的情況,還要去執行多項任務,用傳統方法去程式設計是非常難涵蓋的,其量級也不可擴充套件,開發人員不可能 “先知先覺” 預先程式設計出所有的特定解決方案。因此,這就需要機器人在一個全新的環境下,自主決定應該怎麼去做才能完成任務。

其次,機器人遇到新的情況需要隨機應變,靈活應付。此前的很多研究中,幾乎都是把機器人的單項技能訓練做得很好,比如走路、奔跑、故障恢復等,但在演示中,有時候還需要操作員拿著遙控器根據機器人當時所處的情況去切換模式和操作,這讓實用性大打折扣。

而本次研究中提出的多專家系統,相當於每個 “專家” 都訓練了一種基本技能,比如說走路、故障恢復、摔倒爬起等,單項技能學會之後,然後讓不同 “專家” 組隊一起訓練,透過一個門控神經網路,在不同事件、不同情況下去啟用排程每個專家,讓他們綜合形成不同的協調組合,進而克服不同問題。

透過這樣的技能加持,四足機器人 “絕影” 在沒有導航的情況下,能自動執行在樓梯、礫石堆、崎嶇路面上進行連貫的小跑、轉向,乃至在被人踹倒、被推翻的情況下也能迅速恢復正常姿態。

“最後形成的那個綜合‘專家’,相當於是集各家之長於一身,懂得融會貫通,這就讓機器人具備了在當時那種特定情況下所需要的技能組合,而且能夠根據不同情況千變萬化、舉一反三,去自主恢復繼續執行任務。” 李智彬說道。

機器人摸爬滾打的能力有了怎樣的提升?請看以下效果:

8 項“專家技能”融會貫通,關鍵恢復能力控制在 1 秒內

詳細來講,論文中提到的多專家學習體系結構被命名為 MELA(multi-expert learning architecture),這是一個由深度神經網路(DNN)和門控神經網路(GNN)組成的分層強化學習(HRL)結構。

為了幫助解釋,研究人員定義了幾個關鍵術語:運動技能、專家和運動模式。

運動技能:即一種反饋策略,可以產生協調的動作來完成特定型別的任務,這是構建更復雜動作的基礎;專家:具有專業運動技能的 DNN;運動模式:四肢協調運動的一種模式,如站立、原地轉動、向前 / 向後小跑、左右轉向、跌倒恢復等。

研究人員為機器人訓練了 8 項運動技能,包括:(1)從背部翻身;(2)側滾;(3)身體姿勢控制;(4)站立平衡;(5)左轉;(6)右轉;(7)小步小跑;(8)大步小跑。

不同的技能需要不同的觸發方式,而把 “八技” 融會貫通是 MELA 合成可變技能和產生適應性行為的基礎。

面對不同情況下,GNN 生成可變權重(α)來融合所有八個專家網路的引數,這樣新合成的運動技能可以透過混合各個專家的有效技能,快速生成不同的運動技能,來適應各種未知場景。

圖|多專家學習框架 MELA 的原理(來源:Science Robotics)

實驗結果表明,依靠 MELA 輸出的融合技能加持,“絕影” 機器人的關鍵恢復能力控制在 1 秒內(恢復身體姿態平均 0.5s,恢復小跑模式平均 0.4s),也顯示出了在非結構化環境下更強的可靠性和通障效能。

還有一個值得關注訣竅是,研究人員從生物運動控制中汲取了靈感,這讓運動控制和學習框架更加貼近真實的四足動物。

例如,動物的運動行為都是受中樞神經系統控制的,中樞神經系統會重新設定身體關節的參考位置,根據參考位置與實際位置之間的差異,激發肌肉活動以產生適當的力進行姿態調整。

由於阻抗控制提供的彈簧阻尼特性類似於生物肌肉的彈性,因此研究團隊應用了平衡點(EP)控制假設,透過調控平衡點來生成關節扭矩。

受肌肉系統的生物力學控制和 EP 假設的啟發,研究人員其實將機器人控制分為了兩層:在底層,團隊使用扭矩控制為機器人配置關節阻抗模式;在頂層,指定深度神經網路(DNN)為所有關節產生設定平衡點,以調節姿勢和關節扭矩,建立與環境的力相互作用,在這樣的基礎上,MELA 可輸出更加貼近真實四足動物的運動策略。

圖|機器狗的摔倒爬起連貫反應(來源:愛丁堡 Advanced Intelligent Robotics Lab)

下一步,仍需更多跨界合作

“這樣的多專家系統、多技能融合框架,讓機器人可以自主切換運動策略、自己去適應環境,在足式機器人上算是第一次應用,這也是為什麼這項成果能被 Science Robotics 評為封面,至少它實現了一種質的突破,較此前研究形成了一個代差。” 李智彬表示。

據瞭解,這種多專家融合技能的思路,也能夠延伸到其他機器人平臺上。包括各類四足、雙足機器人,以及輪式的、履帶式的機器人,乃至在機器人進行抓取操作上也可以應用。機器抓取不同的東西的策略是不一樣的,本質也就是不同專家的技能延展,無論是抓紙張、書本、杯子,還是光溜溜的肥皂、球體、軟硬不同的物體等,其實都需要不同的專家技能策略。

關於進一步改進和提升的空間,他表示,仍需要和圈內更多優秀團隊一起合作探索,才能不斷突破,未來的研究可以整合視覺、觸覺感測等,以開發多感知型運動技能。

例如,對於機器人本身而言,現在普遍還缺少一種 “電子面板”。

目前機器人機載的感測器對各種情況判斷,很大程度上都要透過大量的訓練經驗積攢起來,由於機載感測器有限,很多經驗只是統計學上來講是對的,但它針對某個特殊情況卻不一定是最好的,只能說有較高的成功率。

但在自然界的生物中,小到毛毛蟲、蠕蟲,大到各類動物、人類全都是有面板的,如果機器人在廢墟現場要鑽進去一個洞,進去之後身邊的環境是怎樣的,怎麼透過,障礙物與機身表面是怎麼接觸的,如此複雜的環境下現有的傳統感測器就不夠用了,需要 “電子面板” 更加精細化地感知區分。

另一方面,機器人對外部的感知理解能力仍然有待提高。

比如一個霧濛濛的環境,是因為有霧,還是因為燃燒引起的煙,單純用計算機視覺來看,不一定能區分清楚;再比如機器人從室內走到室外,外面是一個零下的無雪環境,在機器視覺看來地面可能與平常無異,雷達也探測不到障礙物,但這種情況下人類走路、開車會下意識地注意路面可能會打滑,機器人卻還不能意識到這點調整策略,這些 “非接觸式” 的外部感測包括輻射、溫度、氣體檢測等也都非常關鍵。

16
最新評論
  • mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶
  • 多地目擊者觀測到隕石墜落:小行星進入大氣層前質量超9000噸