近日,兩個由 OpenAI 的研究人員開發的一模一樣的機械臂——愛麗絲和鮑勃,可以在模擬情景中透過對弈互相學習,而不需要人為輸入文字。
其中一個虛擬機器械臂已經學會解決各種不同的難題——堆積木、擺放桌子、排列國際象棋棋子,並且每項任務不需要進行再訓練。這一切透過與另一個機械臂對弈得以實現。據瞭解,另一個機械臂經過訓練後,會給原本的機械臂臂帶來越來越難的挑戰。
這些機器人採用的是強化學習演算法,即在不同情況下,透過試錯來訓練人工智慧,並採取不同行動來實現目標。遊戲包括在虛擬桌面上移動物體。例如,透過以特定的方式排列物體,愛麗絲試圖設定對鮑勃來說很難解決的謎題,而鮑勃會試圖解決愛麗絲的謎題。隨著它們的學習,愛麗絲會設定更復雜的謎題,而鮑勃也會越來越會解謎。
經過愛麗絲設定的積木謎題的訓練後,鮑勃便可以通用於一系列任務,包括擺放桌子和排列象棋棋子。
通常在多重任務處理中,深度學習模型必須在任務間進行再訓練。例如,AlphaZero (一款棋類 AI,可以透過自我博弈來學習)會使用單一演算法教自己下國際象棋、將棋和圍棋——但每次只能下一盤棋。例如,下國際象棋的時 AlphaZero 不能下圍棋,下圍棋時的 AlphaZero 不能下將棋。因此,造出真正能同時處理多工的機器,是走向更通用的人工智慧道路上的一大未解難題。
訓練 AI 同時執行多重任務時會遇到一個問題,即需要大量的例子。OpenAI 則透過訓練愛麗絲為鮑勃生成例子,用一個 AI 訓練另一個 AI 來避免這個問題。經過訓練,愛麗絲學會了設定目標,比如建造一座積木塔,然後把它撿起來並加以平衡。鮑勃學會了利用虛擬環境的屬性,如透過摩擦力來抓取和旋轉物體。
截至目前,虛擬現實的訓練只在虛擬環境中進行,但 OpenAI 和其他機構的研究人員正在將虛擬環境中訓練的模型轉移到物理環境中,且越來越有起色。據悉,模擬環境可以讓 AI 在短時間內處理大型資料集,然後研究人員會根據現實世界的環境再對其進行微調。
該團隊的研究人員表示,他們的最終目標是訓練這些機械臂去解決人類可能要求它做的任何任務。與 GPT-3 一樣(GPT-3 是一個能以各種不同方式使用語言的語言模型),這些機器人手臂是 OpenAI 打造多工人工智慧整體目標的一部分,而使用一個 AI 來訓練另一個 AI 也許是其中的關鍵所在。