去年10月份,“馬雲爸爸”做了一件非常驚人的事——成立阿里巴巴達摩院。
達摩院成立的前一天,有一張圖火了——就是一張馬雲和多位科學家的合影在科技圈兒刷了屏。包括馬雲C位在內,一共有14名成員,普通人可能不太熟悉其中大部分的人,但他們大多數是技術領域的頂級大牛,他們將為阿里的“達摩院”出謀劃策,出於一些業務上的考量,他們更像是顧問。
作為一個“活得至少要比阿里巴巴長”的技術機構,馬雲宣佈三年內,要在技術研發上投入超過1000億,初期招攬100名頂級科學家和研究人員,研究自然語言處理、人機自然互動、量子計算、機器學習、基礎演算法、晶片技術、感測器技術、嵌入式系統等等前沿科學領域。總之,你能想到的那些前沿技術領域,全部包括在達摩院的範疇之內。
馬雲對達摩院發展提出的三個要求,“活得要比阿里巴巴長”、“服務全世界至少20億人口”、“必須面向未來、用科技解決未來的問題”。
過去一年,達摩院並沒有出來公開講過太多話。今年4月,阿里達摩院宣佈了自主研發AI晶片——Ali-NPU,按照阿里說法,該晶片的效能將是目前同類產品的40倍。今年5月,達摩院量子實驗室宣佈,研製出世界最強的量子電路模擬器“太章”,並在全球率先成功模擬了81位元40層的作為基準的谷歌隨機量子電路,挑戰“量子霸權”。除此之外,基本都是在演算法和測評比賽上獲得一些獎項。
成立9個月以來,阿里的技術核心達摩院仍然非常神祕,這個機構有多少業務部門單元,有多少人,他們在做什麼事兒,如何運用到阿里巴巴的體系當中去?
7月6日,阿里巴巴在杭州舉辦了一次“媒體小課堂”——這也是既達摩院成立了快一年後,第一次做媒體溝通。這不同於一些傳統的釋出會和溝通會,這更類似於一個媒體公開課的形式,主要由幾名具體技術業務部門的發言人闡述一些技術背景、應用場景以及達摩院對於未來技術的判斷。
阿里巴巴方面並沒有直接透露達摩院體系之下的人員數量,但多數成員來自於此前的iDST。在媒體小課堂上, 四位主講人分別是來自達摩院機器智慧實驗室(視覺組)負責影象識別的資深演算法專家謝宣鬆、量子實驗室的量子科學家徐華、機器智慧技術實驗室負責機器翻譯的研究員葛妮瑜以及機器智慧技術實驗室負責語音識別的高階演算法專家雷鳴。旗下有幾個實驗室我們並不得知,而據阿里巴巴提供的最新的訊息,阿里巴巴體系下已經有擁有25000名技術研發工程師。
據阿里介紹,在阿里巴巴,達摩院並不是一個純研究部門,它和業務和商業緊密相連,既有學術思維,也有產品思維和商業邏輯。達摩院機器智慧實驗室高階演算法專家雷鳴在加入達摩院之前在微軟任職語音科學家,他認為“在微軟更像是純學術研究,而在阿里巴巴會讓自己有一些商業的考量。”
達摩院機器智慧技術實驗室智慧語音互動的首席科學家鄢志傑曾經也提到——他在阿里的實驗室有三類人。一是演算法研究,二是做演算法落地,三是推動產品化的工程技術人員。這三類人結合到一個組織下,能讓演算法的研究成果迅速被產品化。
千貨千面,機器自動生成促銷圖
今天的人工智慧代表有很多——打敗世界冠軍的AlphaGo,基於使用者興趣的商品推薦,支付寶的刷臉支付、交通網路上的車牌識別,菜鳥網路的智慧排程等等。有很多是基於視覺智慧的。
達摩院的視覺智慧是圍繞幾個方面的——圍繞“人”,比如基於人的醫療視覺;圍繞“物”,識別工業上的一些設計的技術問題、流水線上的包裹,甚至高鐵都可以稱作“物”;還有圍繞“空間”,像城市大腦,是研究城市空間怎麼運作的,包括技術在交通、安全上的識別。
而最新的技術是在“設計”領域,比如視覺生成。
視覺生成可以這樣理解——以往很多視覺的AI技術,都是集中在人臉識別、支付,或者對於視覺中內容的理解等等,基本上可以認為是識別、檢測、分割的技術內容更多,而生成、決策的內容更少。
而類比人的智慧生成的過程——從小學初中大學碩士博士,逐漸認識和理解這個世界,而最後工作提出研究、產生的價值則是個人決策的概念。對於視覺智慧來說,同樣基礎在於理解,目的在於生成。
目前分成三塊內容。一個是對影象的生成;一個是對視訊的編輯和生成;還有對圖形的生成。
對於阿里來說,最典型的應用是淘寶正在使用魯班系統。謝宣鬆提到,“我們在‘雙11’,或者在手淘、天貓,上面有大量banner圖片。其中很大部分是由系統自動生成。比如說光‘雙11’會產生數億張圖,累計起來更多。目前通過魯班服務各種電商場景,後面通過阿里雲服務各種需求。”
淘寶中很多圖片是機器自動生成的,並非是人為PS的。而在智慧生成的領域,還支援廣告短視訊自動生成。
除去在“設計”領域的運用之外,阿里巴巴還推出了城市大腦,針對城市交通路網的識別,還有行業大腦對於特定領域的垂直應用。針對“物”,主要應用在流水線物體的檢測領域,“ 比如鐵路有螺母鬆動,或者某個電池片,太陽晶矽這種發生了裂紋,還有晶片溢膠不正常等等,這些診斷內容從視覺上能看得到,而不用人再去反覆檢查。”
針對“人”,更多的是應用在醫療領域,針對X光的膝關節檢測甚至是肺結核檢測,但挑戰在於,醫療行業的資料大部分都是異構的,達摩院視覺智慧的目的是建立數字化人體基準影像庫。
極限計算和量子霸權
阿里巴巴一位內部人士提到,達摩院的研究分為短、中、長的研究時長,人工智慧既有短期也有中期,也有長期的研究方向。量子計算就算是中長期的研究方向。
對於量子計算來說,達摩院的量子計算實驗室曝光不多。前者視覺智慧偏向於應用層面,視覺智慧如何在阿里巴巴落地等等,而量子計算則只能從概念和狀態說起……
量子最早來源於拉丁的Quantus,它的是一個概念,而非物質。本身並不是任何物質,而是表示在1900年德國一個物理學家普朗克黑體輻射,提出了量子概念。一個物理量如果存在最小的不可分割的基本單位,則這個物理量是量子化的,並且把最小單位稱為量子,這是量子的基本概念。它是一個概念,而不是一個物質。
什麼是量子計算?在知乎上引述@Summer Clover所提到的院士的答案…..比較通俗易懂。
量子位元可以製備兩個邏輯態0和1的相干疊加態,換句話講,它可以同時儲存0和1。一個N個物理位元的儲存器,若它是經典儲存器,則它只能儲存2^N個可能資料當中的某一個;若它是量子儲存器,則它可同時儲存2^N個數據。而且隨著N的增加,其儲存資訊的能力將呈指數級上升。由於資料操作可以同時對儲存器的資料進行,而量子計算在實施一次運算的過程中,則是同時對2^N個輸入數進行測算,其效果就相當於經典計算機採用2^N個不同處理器進行並行操作。
量子計算機的方式,可以解決經典計算機發展瓶頸的問題。量子演算法在演算法上加速,可以做量子系統模擬,量子機器學習。“一般一個領域有一兩個應用就可以幹了,這三個都有很強的應用,這可以說是量子計算髮展核心的驅動力,驅動大家在這個領域投入,去做這方面。”
量子計算在加速上有很大應用,量子計算機對於模擬原子、分子等遵循量子力學基本原理的系統,加速效能明顯。“關於藥物研發、材料性質研發,都需要這方面的模擬。經典計算機沒有比較好的做,這是量子計算邏輯非常重要的應用。”
量子霸權,則是對於某個特定的問題量子計算機可以解決,但是經典計算機無法解決。2016年Google團隊在理論上提出,49個物理量子位元可以在隨機量子電路的輸出取樣,這個特殊問題上實現量子霸權。2017年10月,IBM在超算上實現了56量子位元的模擬。
Google今年3月提出72個量子位元的晶片方案。阿里巴巴則公佈了81個量子位元的模擬,宣佈打破了Google宣稱的量子霸權壟斷。不過量子霸權,從提出霸權到打破,“更多是象徵意義大於實際意義,因為本身解決不是通路計算問題,主要是特性問題解決,認為是技術發展過程當中一個個里程碑。”
量子計算在阿里巴巴內部有什麼落地?
此前,阿里巴巴成立了量子計算實驗室,主要是想通過顛覆性的量子計算能力,為客戶提供基於量子計算的解決方案。據稱,目前已經有“小有規模”的團隊,是一個跨學科的國際化團隊,希望是解決量子計算方面全棧問題。阿里巴巴目前沒有透露進一步的詳細資訊。
阿里巴巴目前的介紹也比較偏向於底層,物理實現層。而在其上面還有一些系統軟體層,有演算法層,應用層,每個層上都有很多問題。
徐華提到,量子計算的普及還不太好預言,但有幾個領域會比較受關注:
一,量子體系的模擬。通過經典計算機進行量子系統模擬,結合量子計算機本身,一起對量子體系模擬。阿里巴巴目前已經有一些專案在測試了,現在不方便透露。
二,阿里巴巴集團在人工智慧優化領域有很多佈局,業務層面有很多應用。量子計算對於人工智慧有很強的加速作用,近期我們可能會開始一些專案的調研和啟動。
徐華認為,“當前業界仍是這樣的狀態——量子計算非常困難,被定義為極限計算。利用的是各種極端條件下,極限的物理條件來實現。”
針對非標準漢語語法結構的鬥爭
對於機器翻譯來說,阿里巴巴擁有眾多類似於跨境貿易的場景。
在淘寶上,常見的場景是一面則是天貓上一件嬰兒衣服,配有中文、影象,另外一面則是大洋彼岸阿里巴巴國際網站上同樣的產品,用英文展現的。阿里巴巴產品數量的特性決定了,在阿里巴巴,眾多商品頁面、上億個產品,不可能使用人工翻譯。
機器翻譯有60年的歷史,它的可用性在最近30年才達到現在的程度,而在這30年的前25年都是在做統計機器翻譯。
統計機器翻譯,即通過大量雙語語料建立一個統計模型。比如你看到“中國”這個字,英文翻譯就是China,對於機器來說,“中國”這個詞因為語料庫的原因它大體是“China”,但“中國”這個詞不僅是China,也可以是Chinese,甚至直接分解拆譯成“中-國”也是有可能的。一箇中文詞有很多英語翻譯,統計機器翻譯出發點就是用大量雙語語料自動學習翻譯的辭典。
它的優點,尤其是源語言和目標語言比較相像的翻譯過程中,比如英語、西班牙語、法語,效果就非常好。
而最近五年比較火的是神經網路機器翻譯。直接說在效果上,它是看整個一個句子,不是看一個字,效果會比較好。所以在語句通順度上會更好,英文它結合了一定上下文的意思來翻譯。而唯一的問題是,神經網路機器翻譯是一個黑盒子,如果這句話翻譯錯了,並不能實行人工干預,只能通過繼續餵養一定的資料。
在神經網路機器翻譯領域,Google算是元老了——不管是新聞、對話、幽默、電視劇,都是一個模型翻。微軟,也差不多類似;而Facebook也用這種方法來翻譯社交網路。Amazon不太一樣,使用通用機器翻譯模型。
談到機器翻譯在阿里巴巴的應用,則是不同場景下,建立不同模型。在傳統統計機器翻譯和神經網路機器翻譯下,阿里巴巴開發了一套RBMT規則式機器翻譯,採用三種方式翻譯,原因在於淘寶需要對抗非標準漢語語法結構。
在這樣的翻譯需求裡,數字、日期、地址,專有名詞是比較固定的詞語,會使用規則翻譯。而描述性的、使用者評論,則會採取神經翻譯的系統。而對於國外使用者搜尋來說,他們不會去搜索這麼冗長的標題,則還需要機器對於標題的內容進行理解總結,對商家冗長的標題進行優化,進行改寫。另外阿里巴巴目前已經在結合淘寶圖片內容對翻譯結果進行合成,標題中的“鏡”至少可以翻譯成“mirror”、“lens”或“glasses”,但通常情況下,一張產品圖就能解釋一切。
阿里巴巴不止一次提到,全球化是阿里集團未來20年三大核心戰略之一。而讓天下沒有難做的生意,就演變成要讓大家在語言溝通上零障礙。
阿里巴巴提供的資料顯示。以阿里巴巴國際站為例,七成買家以英語溝通,剩下30%為西班牙語、俄語、土耳其語等小語種,大約96%的賣家對小語種無能為力。
目前,阿里巴巴已經在做21種語言,48個語言方向,每一天要調動阿里巴巴機器翻譯服務7.5億次,每年翻譯120萬億個詞,不光印歐語系,還包括要翻譯很多小語種語言。葛妮瑜表示,每一個方向都是很精細的做,從來不用搭橋的方式做。
阿里巴巴目前有眾多使用到機器翻譯的場景,每個場景的需求都需要被細緻打磨——天貓出海,速賣通,支付寶,優酷視訊字幕,以後電視劇機器都會自動翻譯。目前菜鳥物流通關、阿里雲國際社群、飛豬旅行翻譯助手、釘釘社交口語翻譯已經上線。
語音識別,IoT時代的基礎技術
相較於前三個技術領域,最後介紹的語音技術可能離我們更近一些。
目前,Google已經推出了基於語音識別的智慧音箱,偏智慧語言識別和對話,微軟小冰也上線了幾年,也是通用語音識別,Amazon Echo也採用了語音識別技術,國內百度也有通用語音識別+輸入法語音。
語音技術歸納起來可以從人聽到到說話的過程理解。ASR語音識別,是識別聽到的字和詞;NLP自然語言是理解聽到的話的含義;TTS則是語音技術合成,生成一段語音並傳達。整個過程是從聽到、聽懂到生成。
語音技術的好壞的通用度量指標是識別錯誤率。在中國是字的識別錯誤率,英文則是詞的識別錯誤率。據雷鳴介紹,現在一般識別錯誤率,比如做得比較好的是在一些比較好的領域,可以做到2-3%的錯誤率,做得比較差的是7-8%的錯誤率。
今天影響語音識別準確率的幾個方面。一個方面,語音識別本身模組組成是分聲學模型、語言模型、解碼器三個部分。聲學模型是給定語言學單元,計算輸入語音匹配的可能性。“影響聲學模型,很典型的就是辭典,今天不斷有新詞,新的發音進來,比如二次元文化。如果辭典不是新的,不能覆蓋所有的目標識別領域,就不能識別。”
現在的識別環境同樣考驗硬體——麥克風的有效識別。如果不考慮麥克風還有環境因素,噪音、場地等這些噪音,語音識別的“雞尾酒效應”則是指,在一個嘈雜環境下,如何識別語音主體的問題。
除此外,還有特殊領域的專有名詞,中英混讀以及年齡兒童音等。“在一些會議識別系統中,如果不提前知道會議要說什麼,會識別的非常亂套。”
據介紹,阿里巴巴在語音識別模型方面最特別的是——Google和百度、訊飛基本上是基於LSTM模型技術,阿里巴巴主要基於DFSMN(深度前饋序列記憶網路)技術。據此前媒體公佈的訊息,對比目前業界使用最為廣泛的LSTM模型,訓練速度更快、識別準確率更高。採用全新DFSMN模型的智慧音響或智慧家居裝置,相比前代技術深度學習訓練速度提到了3倍,語音識別速度提高了2倍。阿里提供的資訊顯示,該模型的語音識別準確率為96.04%。
商業模式方面,Google、百度、訊飛更多直接面向終端使用者。阿里巴巴面更多的是面向合作伙伴。
據了解,阿里巴巴機器智慧語音技術團隊主要攻克語音識別方向,包括語音識別,語音合成,人機對話。智慧語音互動團隊主要做語音識別、語言理解、語音合成、人機互動、知識圖譜、聲紋識別等。
阿里巴巴已經有了一些應用。阿里巴巴園區7號樓的COSTA已經有一個語音點餐機,可以直接說出“兩倍熱巧克力”。
阿里巴巴還和做了網際網路汽車應用,具備全語音操控,包括基礎語音能力,車載的地圖/導航技能,也可以在雲端不斷升級和優化。
在上海地鐵,已經擁有支援語音識別的售票機,你只需要對它說“買兩張去陸家嘴的票”。
在法庭上,利用語音識別技術就可以做書記員基礎的工作,最後讓書記員做一些整理。雷鳴介紹,目前基本覆蓋了300家法院。智慧庭審覆蓋的法庭數超過6千家,首家網際網路法院,杭州網際網路法院已經部署了這個系統。
IoT時代,雷鳴則提出,多模態語音互動和下一代對話引擎,在未來IoT時代非常重要的技術點。
寫在最後
可以看出,此前阿里在各種大會上提出的AI應用,基本上已經在實踐達摩院的研究能力。
此前,我們也曾詳細介紹過阿里雲ET農業大腦的“智慧養豬”,阿里巴巴工程師就親赴豬場就為每隻豬建立了數字檔案,也是建立在達摩院的技術體系之內。我們也可以得知,每個垂直領域的具體案例下會有很多詳細的問題考究。
達摩院體系內的研究人員大多數是各個技術領域的科學家,在一些科學家口中,“阿里達摩院不同於其他公司的研究機構”,他們跳出學術研究的小圈子,希望技術可以被更多的人的應用。達摩院最主要的工作就是技術創新,探討和業務、商業的合作的可能性。
實際上,在達摩院宣佈成立當天,馬雲發表演講稱,研究不應該是Research for fun(為快樂研究),也不應該Research for profit(為利潤研究),而是Research for solving the problem with profit and fun(為解決問題研究並帶來利潤和快樂)。