原文來自Medium,作者Trent Eady
原文連結:https://medium.com/@trenteady/a-theory-about-teslas-approach-to-imitation-learning-33b9e2c6d4d7
擁有約60萬輛配備“全自動駕駛”硬體汽車的Tesla,如何才能最大化地利用這一車隊?更具體地說,Tesla如何利用這些車輛進行模仿學習(imitation learning),即訓練人工神經網路來模擬人類行為?
簡單收集所有汽車的所有資料是遠遠不夠的。一段時間後,人工神經網路將能夠掌握如何沿著高速公路直線段行駛,此時再新增更多相關資料只會佔用資料集容量,並使神經網路傾向於認為汽車應該始終直線行駛。因此,我們需要縮小資料收集範圍。
很多因素都有可能導致硬體上傳資料:比如在司機急剎車或猛打方向盤的時候,以及當神經網路在道路上檢測到某種物體或情況的時候,如路上的馬匹或施工場地。
還有一種方法是訓練神經網路通過模仿學習來駕駛,當人類駕駛時,神經網路就在車內被動執行。當神經網路的輸出與人類駕駛員的真正操作相悖時,相關資料就會上傳。
Tesla的執行長伊隆·馬斯克(Elon Musk)曾暗示Tesla的汽車有能力被動執行自動駕駛軟體,並稱之為“影子模式(shadow mode)”。影子模式旨在比對軟體輸出的結果與駕駛者的實際操作。因此,為模仿學習選擇資料的方式似乎完美地應用了影子模式。
這個想法類似於Tesla在為行為預測網路收集資料時使用的方法——變道切入檢測器(cut-in detector):
變道切入檢測器能夠預測汽車的動態。當汽車的真實動態與檢測器的預測結果不符時,相關資料會上傳,用來進一步訓練變道切入檢測器。
行為預測和行為生成(模仿學習是行為生成的一種方法)是同一枚硬幣的兩面。行為預測網路預測Tesla周圍的司機會做什麼,行為模擬網路預測Tesla車內的司機會做什麼。無論是哪一種情況,如果網路做出錯誤的預測,都會觸發資料上傳,並利用相關資料訓練神經網路。
理論上,Tesla可以被動測試模仿網路的預測結果與人類駕駛員的實際操作產生分歧的頻率,如果該資料低於某個安全閾值,模擬網路就可以控制自動駕駛系統Autopilot,如實現自動右轉。此時,Autopilot的干預器可以觸發資料上傳。
當依隆說“將所有輸入都視為錯誤輸入”時,他想表達的可能就是這個意思:
當人類司機取代Autopilot並重新駕駛車輛時,他們的即時操作往往是Autopilot原本該做卻未做的。因此,系統對人類行為的失敗模擬會產生新的資料,並用於神經網路的進一步訓練。這一過程的原理與變道切入檢測器相同:利用失敗案例的資料來進行訓練。
Tesla的車隊每天行駛大約2000萬英里(3200萬公里)。影子模式和Autopilot干預器似乎能夠達到這兩個目的:自動管理車隊資料,並上傳那些最有價值的案例資料。如果模仿學習的資料來源於視覺網路輸出(狀態)和駕駛員決定的汽車行駛路徑(行為),那麼這些資料也會自動標記。
因此,從資料採集到神經網路訓練,機器學習可以實現全過程的自動化。自動化使Tesla在不使用大量人力資源的情況下就能利用大量資料,其資料量約為其所有競爭對手資料總和的250倍。
這種(部分基於假設的)模仿學習方法最大的瓶頸在於解決計算機視覺問題,由安德烈·卡普西(Andrej Karpathy)領導的Tesla計算機視覺團隊正在積極研究對策。
據我所知,卡普西和他的同事正在開發一個大型多工網路。此前,卡普西對應用更大的全新神經網路表示十分激動,但舊的計算硬體系統無法承載這一網路。後來我們聽說,Tesla升級至新的計算硬體系統,而這個系統只被使用了5%-10%。目前,新的神經網路還未面世,更不用說被應用於汽車生產上了。
網路開發的程序受到多方面的影響:卡普西和Tesla計算機視覺團隊的神經網路開發工作;Tesla人工標註員的資料標記工作;資料標記軟體的開發;神經網路的訓練進度(節省了成本,但需要付出更多時間);和全新視覺網路的實地測試工作,這些都會拖慢總體程序。
依隆的計劃表明,我們將於年底看到擁有全新視覺網路的汽車的生產,但這一過程很難預測,且依隆常常操之過急。
要解決這個問題只有兩個方法:要麼部署更大、計算能力更強的視覺網路,要麼不部署,改用其他方案。如果選擇前者,便可以更有效地開展模仿學習。與模仿學習一樣,行為預測也建立在全自動化的機器學習流程之上,因此這一功能也能得到改善。而行為預測的反面便是行為生成:行為預測預測其他駕駛員的行為,行為生成則預測Tesla司機的行為。
模仿學習和行為預測的程序依然會收到多個因素的牽制:神經網路開發、機器訓練和實地測試,但其中並不包括資料標記。這個過程中還需要工作人員編寫一些非深度學習軟體,例如能夠將高階人類行為轉換為執行器命令(即制動、加速和轉向)的控制軟體。這些因素讓我們很難預測Tesla何時能夠充分開展模仿學習。
假設Tesla已經招聘到了國內外最頂尖的深度學習研究人員和工程師,那麼當它全速推進模仿學習程序時,Tesla的軟體效能將實現質的進步——只有(當下的)深度學習基本原則才會影響它的效能。從這個意義上說,Tesla的模仿學習將是對深度學習基本原則的科學檢驗,這將是一個任何學術機構或企業實驗室都無法獲得的實驗結果。然而,與其他實驗一樣,我們也無法準確預測它的結果。
到2021年,如果Tesla完成了手頭上進行著的所有工作,且全速推進模仿學習程序,那麼我們就可以開始根據Tesla產品在使用過程中體現出來的效能,得出關於(當下的)深度學習的基本結論。在那之前,我們並不知道Tesla的方法到底是根本不起作用,還是隻是沒有經過充分的檢驗。
模仿學習可能會失敗,也可能會證明(現有的)深度監督學習技術無法完成駕駛所需的三維計算機視覺任務。也許我們需要從根本上更新或創新神經網路結構,或者過渡到自監督學習(self-supervised learning)(譯註:自監督學習是沒有人工標註標籤的監督學習,可以將它看作沒有人類參與的監督學習),就像楊立昆(Yann Lecun)提出的那樣。又或許,端到端的學習(end-to-end learning)才是解決方法,它至少對電腦遊戲Quake起作用了!
很多因素都可能導致模仿學習的失敗。由於這些因素不斷更新,Tesla無法倚賴過去的經驗來預防Autopilot新出現的失誤。或許,模仿網路最終無法完全掌握駕駛操作的複雜性,也無法完全應對駕駛中的變化,而是會迴歸到最基礎的操作,即根據之前的訓練內容作出可靠的反應。也許,模仿學習的失誤率會一直高於安全駕駛的可接受閾值。
然而, Tesla生產的自動駕駛汽車數量已經達到一百萬及以上,從而使得機器訓練資料擴大1000倍,這可能會幫助現在最先進的技術(譯註:即深度學習技術)發揮出最大的價值,也可能會讓Tesla研究人員和工程師的一些創新成果發揮作用。
如果只能利用這些訓練資料的千分之一,就無法進行成功的深度學習。強人工智慧(Artificial General Intelligence,AGI)或類似技術只需要利用少量的資料就能夠解決問題,但深入學習過程需要大量資料。
人類平均每行駛50萬英里(80萬公里)就會發生一次交通事故。如果一個人駕駛2000萬英里(3200萬公里),那麼大約會發生40場車禍;如果他駕駛200億英里,就會發生約40000場車禍。
這聽上去更像是深度學習訓練得出的比例。如果人類的車禍率反映了罕見事故的發生率,以及機器全面掌握駕駛多樣性和複雜性所需的資料規模,那麼數十億英里(而不是數百萬英里)內發生一次車禍的確是正確的比例。現有的Tesla自動駕駛車隊每天的行駛里程達到2000萬英里,一年中就能夠行駛70億至80億英里。(這一資料沒有考慮未來增加的新車數量。)
如果Tesla的方法取得了成功,我們不僅會擁有自動駕駛汽車,還將明白擴大資料規模能夠使得現有技術在機器人身上起作用。讓人類操作汽車以外的其他機器人長達上百萬小時並不容易,但一旦解決了技術問題,成本問題可能也會迎刃而解。以每小時15美元計算,1億小時的機器工作需要花費15億美元,還不到Cruise兩年的支出。也許工廠、礦山、農場、建築工地、倉庫、商店和餐館都可以使用機器人,使研發機器學習的支出獲得回報。
如果Tesla的方法失敗了,還有一份備用計劃。Tesla正在開發一種被稱為Dojo的神經網路訓練計算機,其預期用途尚不清楚,但很可能是用於自監督學習或端到端學習,這些方法比Tesla目前在計算機視覺領域應用的監督學習方法更加先進。
自監督學習能利用比之前多出幾個數量級的視訊資料,且無需人工資料標記,因此比監督學習的效果更好。端到端的學習將消除目前介於計算機視覺和模仿學習之間的人為抽象,如邊框迴歸(bounding boxes),它能實現端到端的模仿學習或端到端的強化學習(reinforcement learning),甚至兩者兼而有之。
採用備用計劃,可能會將Tesla的Robotaxis無人駕駛車隊計劃向後推遲數年,且我們並不能保證備用計劃奏效,但這意味著,對Tesla來說,一次失敗並不是終點。