首頁>科技>

2021年1月9日,「洞悉仙知·策見未來」南棲仙策智慧決策釋出會在南京舉辦。釋出會上,南棲仙策創始人俞揚、南棲仙策COO徐亮、南棲仙策產品副總裁李濟君分別對南棲仙策智慧決策釋出技術篇、場景篇、產品篇發表了演講。

現場演講節選如下:

南棲仙策智慧決策釋出——技術篇

俞揚 南棲仙策創始人

【行動改變未來,獎勵定義目標】

《I,robot》這樣的電影是我最喜歡的電影之一,描述的是芝加哥2035年,電影的情節可能並不是很重要,我覺得有意思的是在這樣的電影中,我們看到未來機器人在幫我們服務,幫我們做事。對於機器人,實際上是人工智慧經常研究的綜合體,它有手有腳,有眼睛、鼻子和嘴,更重要的是機器人需要智慧,我們經常稱它是智慧體。

那麼對於各種各樣的行為,並不是所有的行為,或者對於世界所有的變化都是我們想要的,我們想要朝好的方向來發展,所以我們希望的是給我們的智慧體能夠定義一個任務,它要去實現這個任務,達到我們預定的目標。

【離線強化學習】

大家都知道在圍棋上,現在機器已經能夠打敗頂尖的人類了,事實上還包括其他的棋類,還包括現在複雜大規模的遊戲裡面,我們強化學習的技術已經可以達到甚至超越人類專家的水平。但強化學習過程需要大量試錯,這在遊戲中可以容忍,但在真實世界中,試錯意味著高昂的成本。

如果我們想要擺脫一個遊戲的環境,我們在真實的生產生活中,怎麼樣能夠迅速我們的強化學習呢?能不能從歷史的資料裡面學到一個很好的決策呢?那我們就可以得到一個能用的一種方法,來幫助我們尋找最優的決策,這個領域我們現在叫做離線強化學習,所謂的離線也就是我們不要在環境中互動和試錯,我們看歷史的經驗來學到最好的決策。

【從資料中學習】

我們覺得很有希望的一條途徑,那就是從歷史的資料中尋找一個虛擬的環境,如果構建出一個虛擬的環境出來,我們就可以利用今天的所有強化學習技術獲得最優的決策,這個環節和我們打遊戲利用的環境是一樣的,我們從資料中還原一個像遊戲一樣的環境,剩下的任務就交給演算法自動完成。

所以虛擬的環境是一個我們非常渴望得到的這樣一個目標。但是虛擬環境的學習已經嘗試了很多年,一直以來都不是那麼成功,其實中間會面臨一個很大的問題,就在於我們的虛擬環境多少都會有一些誤差,哪怕有很好的資料,也不太可能能得到一個完美的環境。更重要的是我們面臨的決策的問題,我們不是做一次決策,而是可能要在這個裡面做一系列的決策,這一系列的決策做完以後,就會發現我們的誤差在一系列的決策過程中,在不斷的積累和放大。我們現在已知的以往的結果,誤差會隨著決策進行平方級的放大,會使得最後得到的結果差別很大,誤差這麼大的結果,我們拿到真實的世界裡面去,就很難把它成功用起來。

以往最好的技術,從之前獲得平方級誤差的思想出發,它想控制這個誤差,它的選擇是儘量減少對於虛擬環境的使用,這樣就可以控制裡面誤差的放大。但是另一方面,如果想要驗證我們的決策到底得到一個什麼樣的結果,我們要知道我們的決策到底有多好,我們就沒有辦法放棄對虛擬環境的使用。幸運的是我們有很好的人才,我們最近得到了這樣的結果,將平方級的誤差降到了線性誤差的放大,這樣就會使得我們構造的虛擬環境,能夠足以支撐我們在實際中對環境的建模。

下面看到的是最近我們在Benchmark的對比,在不同的環境下,在不同的蒐集資料的策略影響下,在不同的資料量的情況下,我們都能夠獲得比較好的結果,這樣的結果也就使得我們能夠跨過虛擬的門檻進入真實的世界。

【智慧決策的演變】

我們從決策的角度來看,實際上決策是在很多業務裡面長期以來都面對的一個需求,所以我們一直在解決決策的問題。對於一個複雜的系統,甚至包含有客戶、有使用者的複雜系統,往往人工是沒辦法很精確的把運轉規則寫下來,當人工建立一個模擬器的時候,往往面臨的是模擬器和真實資料的脫節,哪怕我們的結果再好,我們的決策也不是最好的決策。

所以打破真實和虛擬的世界,我們需要資料驅動,以往資料驅動我們是用預測的方法替代決策,預測和決策兩者之間有很大的區別。如果我們以購物為例,預測只是說對於一個使用者而言,在他的歷史上看到了什麼樣的商品,他購買的機率是多少,這是我們要做的預測。但是這樣的預測和我們最終想要做的決策,也就是把什麼樣的商品按照什麼順序展示出來,這個中間其實是有斷層的,這個斷層往往是用人工的方式來彌補。比如說我們把購買機率最高的,按照機率從高到低的順序把商品陳列出來,這是不是最好的一種方式呢?其實不是。所以當我們用預測的技術來做的時候,我們的好處在於是資料啟動和真實世界能夠聯動。但是我們缺少一個尋找最優決策的環境。所以最終我們如果能打通從資料構建虛擬的世界,然後在虛擬的世界中,我們用機器去尋找一個最優的決策,那麼這一條道路能夠實現自主的從資料中進行決策的系統。所以我們今天需要實現這樣一個完整的系統,然後讓決策能夠走出遊戲,在很多真實的業務中能夠幫助我們解決大量的需要去尋找最好的未來的這樣的任務。

南棲仙策智慧決策釋出——場景篇

徐亮 南棲仙策COO

決策這個事情是歷史悠久的話題。"兵者,國之大事,死生之地,存亡之道,不可不察也"。這句話是《孫子兵法》的第一段話,《孫子兵法》講的就是決策,這句話講的是決策的重要性,也就是說,決策從古至今來說,大到解決國家大事,小到解決個人生存的問題。決策有幾個重要的因素。第一是目標,第二是為了這個目標的實現不斷試錯的過程,這是決策的兩個重要因素,如果能把這兩個重要因素量化,那就能用上黑科技的技術,能夠把我們的場景做起來。

【賦能製造】

中國是個製造業大國,如果能在製造業把場景賦能上去,那能帶來很大的價值。製造業分幾個場景,第一個場景是研發階段,需要從初始狀態找到更接近目標的過程或者引數組合,這個目標肯定有很多。比如效率最大化的場景,或者效能最好,或者成本最低,對於研發過程中可能有這樣一個目標的定義。為了實現這個目標,我可能會做不斷的試驗來完成這個目標,比如引數的選擇不斷的做試驗,就是不斷試錯的過程,真實場景中這樣的試錯帶來的代價很大,所以業務人員很自然就想到了能不能用模擬器的方式把這個東西實現,自然而然技術就能派上用場。下面的場景是製造流程,如果造口罩,只有一條產線,兩個生產過程輪流切換,怎麼樣切換生產最大化,生產效率又能提高,這是一個建設的過程。

【賦能物流】

產品生產出來之後,企業的決策者同樣會發現一個問題,就是物流能不能提升效率,因為東西生產出來之後,我希望在運輸過程中能降低成本。同樣的,這也是可以提升的一個點。在物流行業來說有一個重要的指標,就是要重時效、低利潤,它的目標就是轉化率要高、佔地面積小、成本更低、流轉速度高,要實現這個目標目前有很多的決策,比如儲位怎麼規劃、預揀規劃、波次的生成,還有路徑最佳化以及最後分擔的策略,怎麼樣提升出貨的效率?這樣的場景中會有哪些資訊呢?比如倉儲這個環節有很多運營商波次的資訊,包括SKU的資訊,包括位置、大小等等,還有揀選的工人從這個位置走到另外一個位置所需要的時間,包括貨架的距離等等,這些資訊都是我們可以拿到的資料,互動資料之後,就可以得到歷史上這些工人和環境互動的場景,這個場景能把整個虛擬的物流環境搭建起來,在虛擬物流環境中就可以用技術在裡面尋找什麼樣的方式能夠達到我們的目標。我們可以給一個任意的訂單組合,組合之後在虛擬物流環境中做訓練和演練,出來一個揀選的路徑,這樣的路徑有什麼樣的效果就可以直觀的看到。同樣我們可以以目標為導向,有這樣一個虛擬的環境,給的目標是什麼呢?就是揀選的效率要提升20%,提升效率怎麼做呢?系統會給出一個答案,比如給出最優的揀選分配,到底哪些訂單的組合給不同的工人去揀選效率是最高的,這樣整體的揀選效率就會提升20%。

【賦能營銷】

企業主同樣還有一個問題,東西生產出來了,也把它運出去了,那怎麼樣賣呢?就是怎麼樣營銷?比如這個場景是發券的場景,歷史上對這個客戶發了多種券,發過95折的券,他有一定的反饋,面額券沒有任何的反饋,發82折的券可以得到更好的收入,這是歷史上的互動資料,有了這些資料之後,就可以把使用者的行為虛擬化,這是我們得出的虛擬的營銷環境,這裡面有很多的虛擬使用者,我可以對虛擬使用者不斷進行試探,發不同的折扣和任意優惠的組合,他的系統會有一個反饋,比如這樣的組合上面消費了多少錢,比如消費6塊1毛8或者有其他的動作,有了這些動作以後,我們可以以目標為導向。比如現在要提升銷量和GMV,這裡可能要求我們的銷售額最大,當然也可以提其他的要求,比如投入產出比最高或者點選率最高,這些都是他的要求,根據這個要求來說,銷售額最大,在虛擬環境中會做模擬推演,然後得出不同的方案出來,根據不同的使用者發優惠券,實際執行中只要把這個方案放入實際的執行系統用起來就可以了。

這個也做了一定的估計,現有場景中目前ROI的提升大概在10%左右,由於我們會拿到新的資料,我們不斷演進和迭代,預估ROI可以提升到30%多,這是我們整個系統,實際執行之後會做迭代和演進以及新的提升。

【供應鏈+AI】

這些場景講完之後,大家也覺得清晰簡單,從生產製造到物流運輸,然後再到我們的享受,其實就是工業領域或者是整個行業的供應鏈。我們希望決策智慧技術能夠在供應鏈中為它賦能,比如我們從商品的推薦、從反向定製以及在生產過程中的決策、排產決策到倉儲,然後運輸過程中的決策,以及到最終提升客戶服務質量的決策。這是整個供應鏈中都能遇到的決策點,大的供應鏈中提供的決策範圍非常大,那場景就非常多,其實我們的未來會非常大。

南棲仙策智慧決策釋出——產品篇

李濟君 南棲仙策產品副總裁

【業務關注】

正如前面所講,有了優秀的演算法和大量的業務場景之後,我們就在思考一個問題,如何讓我們的演算法形成規模化的一個生產力,去服務更多的業務場景。以演算法為基礎,形成一個通用的產品,再將這個通用的產品應用到各行各業,這就是REVIVE要做的事情,REVIVE是新一代智慧決策系統,它讓使用者不用關注於演算法的細節,而只需要關注於自身的業務,通過了解簡單的強化學習的概念,去走一套通用的流程就可以投入實際的業務場景當中去。

【REVIVE主流程

第一步是業務模式,第二步將上傳的資料表進行關聯,第三步,我們需要建立試案,試案是業務模式的延伸,將欄位按照使用者的理解放到不同的業務模式的部分裡面去,用這些欄位來表達業務模式的部分,不同的理解就會有不同的試案。第四步,有了試案之後,我們根據這樣的一個業務理解開始訓練模擬器,也就是虛擬的業務環境,在這個地方是一個圍棋對弈的虛擬環境。有了這個虛擬環境,我們可以給予一個目標,用資料來表達它,在這個地方就是一個輸贏的目標。有了虛擬環境和目標之後,最後一步,我們會用這兩個拿出訓練策略模型,完成策略模型的訓練之後,就完成最後一步,得到了一個策略模型,這就是我們整個REVIVE系統的一個流程引導。

接下來我要講的是整個REVIVE的特色,首先,這裡上傳的表是使用者系統中的表,不需要進行任何的預處理,直接上傳就好了。第二,這個模式也是使用者自己對於業務邏輯場景的分析,我們的系統不做任何的干預,使用者可以按照自己的意願進行分析,表的關聯關係也是他真實業務裡面表與表之間的關係,他如實陳述就行了。

【資料便捷】

REVIVE平臺是人工智慧平臺,而人工智慧是建立在大資料的基礎之上,很方便的管理和處理這些資料是每一個人工智慧平臺應該具備的功能。首先,可以選中某一張表開啟它、檢視它、修改它。我們會分為兩部分,表的結構和資料,現在大家看到的是表的資料。第二部分是結構,在這個地方針對於結構,使用者可以上傳sql、csv、excel等檔案。我們會人性化的提供一個入口,他也可以操作資料,這樣一個目的是為了讓使用者始終持續在流程裡面,他不用擔心來回切換頁面中斷流程。

【案例豐富】

AI或者強化學習的概念,對使用者來講雖然這些概念已經聽了非常多了,但還是不容易理解。所以我們提供了行業案例作為專案模板,他根據自己的行業屬性選擇相應的模板,他可以參考這些模板,這樣的話會進一步降低具體的業務場景當中這些使用者使用REVIVE的門檻。

【訓練自動】

為了讓使用者和繁雜的演算法劃分開,我們會讓訓練更加自動化,使用者不用花費心思在這些地方。REVIVE的資料整理和訓練都是不需要線上等待的,只需要做一些簡單的設定就可以開始。

【模型服務】

使用者透過試案對不同業務的理解,他找到了一個很好的模擬器,基於這個模擬器,他可以開始訓練他的策略模型。訓練完的策略模型始終還在平臺上,並沒有參與到實際生產,這時候我們提供了Model Serving,在REVIVE裡面產生的模擬器和策略模型可以直接線上部署,並且可以連線到使用者真實的業務系統裡面去,參加使用者的真實場景。

隨著演算法持續的最佳化和場景的不斷更新,我相信REVIVE以後會越來越好。REVIVE alpha預覽版會在3月1日上線,我們也會接受私有化平臺開發的需求。

【關於南棲仙策】

南棲仙策專注於智慧決策領域,獨特的開放環境自主決策的核心技術,打破了 AlphaGo 等以往決策技術無法突破封閉環境的屏障,實現了實際業務中智慧決策的落地,在多種業務場景得以驗證。

南棲仙策是南京大學人工智慧創新研究院(南京智穀人工智慧研究院新型研發機構)技術孵化企業,大力投入基礎研發,用技術革新創造客戶價值,致力於在廣泛的業務中釋放人工智慧的決策力量,成為人工智慧工業革命的領導者。

11
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 重要訊息彙總