首頁>科技>

深度強化學習是近年來熱起來的一項技術。深度強化學習的控制與決策流程必須包含狀態,動作,獎勵是三要素。在建模過程中,智慧體根據環境的當前狀態資訊輸出動作作用於環境,然後接收到下一時刻狀態資訊和獎勵。以眾所周知的AlphaGo為例,盤面就是當前的狀態,動作就是下一步往哪裡落子,獎勵就是最終的輸贏。整個強化學習過程就是不斷與環境互動,在互動的過程中產生資料,並利用這些互動產生的資料來學習的過程。正是在深度強化學習的幫助下,AlphaGo得以橫掃世界級頂尖棋手。所以相比於有監督學習方法,深度強化學習在特定場景下可以達到超越人類的水準。

在圍棋領域大放異彩之後,深度強化學習也在不斷地拓展著自己的疆域,遊戲、金融等越來越多的領域也出現了深度強化學習的身影。現代城市作為人類生產、生活的核心區域,是一個匯聚了交通、物流、能源等多個產業的複雜綜合體。如果能夠最佳化這種複雜結構,那麼將會帶來巨大的社會價值。而強化學習恰好可以做到這件事情。本文將為大家介紹幾個強化學習在智慧城市領域的應用案例。

一、智慧交通

在城市各種各樣的交通場景中,會遇到各種各樣的資源配置和交通排程難題。如圖3(a)所示,在一個典型的救護車輛排程場景中,救護車需要不斷地往返於患者和救護車站點。救護車的接車時間在很大程度上取決於移動救護車的動態重新部署策略。也就是說,在救護車可用之後,應該把它調到哪個車站。重新調配現有救護車會影響未來接載病人的時間。例如在圖3(b)中,未來將有3名患者來到1號站附近,因此將現有的救護車1號重新部署到1號站,透過從1號站派遣救護車,可以使這些患者迅速被接走。

圖1 救護車排程場景

這一問題依然可以利用強化學習的方法來求解。文章[1]將需要排程的救護車都被作為智慧體,建模的核心就是確定相應的狀態、動作以及獎勵。在這一場景中,影響救護車效率的因素主要包括未來車站附近的病人數量、車站救護車的數量以及救護車與車站的距離等。將這些指標進行一定的轉化,就可以提煉出病患密度、旅程時間等多個相關因子。這些相關因子就可以被作為輸入狀態。在這一場景中,決策變數,也就是救護車在完成接送任務後,被部署到不同的站點,就是智慧體的動作。而最佳化目標,也就是將接載病人的時間,就是智慧體的獎勵,時間越短,獎勵越大。理想情況下,每一輛救護車智慧體都能夠找到一種優勢策略,讓平均接送時間最短。接下來,文章引入深度強化學習演算法,對這一場景進行很好地求解。

文章使用在真實世界中收集的資料集來評估動態救護車重新部署方法。實驗結果表明,基於深度強化學習的救護車的重新部署方法明顯優於最先進的基準方法。具體來說,與基準方法相比,基於深度強化學習的方法可以將10分鐘內接診的患者比例從0.786提高到0.838,節省平均接診時間約20%(約100秒)。為了能夠增加及時拯救病人的可能性,每一秒都是至關重要的。

在交通場景中,還有很多與之相似地排程問題,例如共享單車排程、公交車輛路線規劃、計程車/網約車排程等。在這些場景中,都可以使用與之相類似的方法。此外,隨著物聯網技術的發展,未來各行各業的管理將進一步扁平化。一大批新的場景也會湧現出來。例如,交通訊號燈的控制最佳化、自動駕駛的控制於決策,無人車輛的排程都屬於深度強化學習的應用場景。所以,強化學習技術在未來將會在未來的智慧交通中起到重要作用。

二、智慧物流

物流的發展極大地方便了人們,促進了電子商務的發展。但龐大的運單量卻帶來了很多管理問題,行業派單效率和配送效率普遍低下,導致了大量勞動力浪費。在快遞領域,配送員的任務量不均衡現象是普遍存在的。這導致部分快遞員任務量過飽和或不足。如果能夠根據任務的不同,動態規劃出每一個快遞員的任務進行規劃,那麼就可以減弱這種資源不均衡現象,來提高資源利用率和任務完成率。但在現實中,快遞員需要同時肩負配送和取件兩項職能,還要兼顧整體地配送效率更高,這無疑會增加問題的複雜度。文章[2]利用深度強化學習來解決這一問題。在文章中,作者將整個空間粗略地劃分成若干小區域,由圖4中的小方格來表示。其中A、B、C分別表示三個快遞員c1、c2、c3在每一個小區域的剩餘配送量,其中陰影的小區域表示快遞員當前的位置。D和G表示每一個小區域待取件的數量。F和H分別表示以快遞員c1、c2為視角,其他快遞員的位置。E表示快遞員c1由位置g3到達位置g2。在真實場景中,影響快遞員路線規劃的因素,包括剩餘的配送位置、待取件的位置、隊友的位置、隊友的行進路線等,基本都可以被這一圖結構表達出來。所以這一圖結構就作為智慧體的狀態。而智慧體的動作則是快遞員的前進方向,如向左還是向右,獎勵就是為快遞員完成的任務量。完成的任務越多,獎勵越大。同樣,在確定了這三維核心指標後,就可以引入深度強化學習演算法來求解。

圖2

我們可以推斷出,除了快遞員的路徑選擇,車輛的運輸、排程,也屬於相似的場景,也可以使用相似的方法來解決。甚至大型物流倉儲管理,也可以利用強化學習來建模。

三、智慧能源

鍋爐燃燒最佳化是一個典型的智慧控制場景。電站鍋爐系統高度複雜,包含磨煤、燃燒、水汽迴圈等多個環節,一個普通600MW中型火電機組就擁有上萬個感測器測點,內部涉及燃燒、風煙、水熱迴圈等眾多物理化學過程非常複雜。純粹使用機理建模的方法很難對如此複雜的系統做精準化建模,導致系統描述失準,影響最佳化效果。

從控制最佳化角度來講,火電燃燒最佳化涉及上百個主要控制量(例如機組內部各種鍋爐給煤量、各種風門、閥門開度等),而且這些變數均為連續變數(例如某個閥門開度20%和開度25%可能對機組執行帶來非常不同的影響)。與此同時,當前動作所造成的影響往往不能夠實時反饋,所以還需要考慮到長期的影響。對於如此複雜的場景,即便是有多年豐富經驗的執行人員,也很少能夠總結出一套高效的調節策略。所以此類複雜系統高維連續變數控制最佳化問題是世界性的難題。

圖3 火電鍋爐執行流程

而深度強化學習恰恰適合來做這件事情。圖2展示了我們基於強化學習的建模流程。對於一個典型的鍋爐環境,我們可以得到很多的感測器提供系統的狀態描述,例如鍋爐中各種溫度、風量、水量、壓力等監測值。我們可以把這些實時反饋的監測值作為狀態,也就是智慧體能夠“看到”的東西。然後我們將給煤量、各種風門、閥門開度等控制變數作為動作。在確定了狀態和動作,我們利用一個業務指標(燃燒效率)作為獎勵。智慧體依據當前的狀態輸出動作,對鍋爐控制引數進行調節,鍋爐環境就會產生一個變化,到達一個新的狀態,如果燃燒效率朝著好的方向變化,我們就給一個正向的獎勵,如果是不好的變化,我們可以給一個負向的獎勵。在完成了建模工作後,我們接下來透過合理的學習演算法,就可以學習出更好的策略。學習演算法透過觀察很多的從狀態和動作到下一個狀態的變化過程,從中抽象狀態——動作——獎勵的對應模式,最終找到一個最佳的控制策略,可以從當前的狀態對映到最佳的控制(動作)變數,實現長期平均獎勵的最大化。

在上機實測過程中,基於強化學習的控制策略相比於人類操作達到了0.5%的效率提升,對於一臺600MW機組,相當於年經濟效益240萬元。與此同時,我們已經實現了對於AI模型的產品化,具備了批次複製的能力,並在多個電廠落地並完成了驗收。

圖4 基於強化學習的燃燒最佳化智慧體

除了燃燒最佳化場景之外,在火電中,我們也已經將強化學習方法用在了磨煤機控制最佳化、冷端最佳化等場景中,並取得了很好的效果。上文所述的控制場景,強化學習也可以在溫度控制、電網排程、能源管理等領域得到應用。另外,火電鍋爐的控制屬於典型的過程控制。在工業生產中,水泥生產過程中的磨機控制,機場ACDM系統中的車輛與人員排程、停機位最佳化,以及鋼鐵製造、化工等工業場景也均屬於相似的場景。在這些場景中,可以提煉出來大量的控制與最佳化問題,深度強化學習技術也具有著廣闊的空間。

透過案例我們可以看到,對於一個現實中的場景,如果能夠確定影響的相關因素、最佳化動作以及最佳化目標,深度強化學習技術將可以隆重登場了。而這些場景在我們的生產生活中是大量存在的。所以在未來的智慧城市與產業中,深度強化學習技術會起到重要的作用。但是就目前來說,深度強化學習的落地仍存在一些侷限。這其中一部分原因是演算法的學習效率仍不夠高效,適應場景也較為狹窄,另外一部分原因是目前很多行業的數字化程度還比較低。但隨著物聯網時代的到來,這一問題將會被逐步解決。與此同時,隨著大批研究人員的前仆後繼,深度強化學習本身的技術也在不斷地迭代發展,演算法適用的範圍也越來越廣泛。未來的發展一定越來越好。

參考文獻

[1] Shenggong Ji,et.al A Deep ReinforcementLearning-Enabled Dynamic Redeployment System for Mobile Ambulances. UbiComp2019

[2] Li Y, Zheng Y, Yang Q. Efficient and Effective Expressvia Contextual Cooperative Reinforcement Learning[C]//Proceedings of the 25thACM SIGKDD International Conference on Knowledge Discovery & Data Mining.2019: 510-519.

6
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 谷歌將關閉在澳大利亞的搜尋服務