“智研所”沙龍第7期
演講嘉賓:京東集團人工智慧業務部智慧平臺部投資主管徐博
細數去年的AI創投領域,幾筆較高金額的融資讓CV公司們成為賽道上的明星。
4月,商湯宣佈獲6億美元C輪融資,5月底,又宣佈再獲6.2億美元C+輪融資,估值超過45億美元。6月中旬,依圖宣佈完成2億美元C+輪融資。
計算機視覺越來越成為人工智慧領域的一大吸金賽道,資本熱熱鬧鬧,應用場景巨大,然而,似乎沒有一家公司現階段的盈利看起來匹配得上超高的估值。
然而更重要的是,機遇與問題並存。未來的一到三年將是AI升級傳統行業格局初定的歷史視窗,在這個視窗期,哪家足夠強大的AI公司能夠率先搶佔藍海,憑藉資料和行業經驗的反饋建立自身的應用壁壘,很大機率就會成為人工智慧領域的下一個巨頭。
以下為演講精編:
2017年剛成立,兩年時間已經在全球多個地點成立了人工智慧研究院,以底層研究為主,50%的人都是演算法老師、工程老師包括產品的同事。我們現在北京北辰辦公室,就是京東上市之前的總部,在南京跟南京大學成立了機器學習研究院,成都主要是客服團隊,矽谷做一些比較前沿的front end research,歐洲的話主要在英國,跟UCL成立了研究院,我們跟斯坦福、MIT都有做基礎研究的實驗室。國內主要是清華大學、南京大學,包括港中文。
我們現在的科學家團隊主要是四位老師,第一位是整個AI部門的負責人,也是京東的副Quattroporte周博恩博士,從IBM Watson被劉總挖過來,之前是全球首席科學家。何曉東老師是微軟美國的首席NLP研究員,領頭開發了小冰、小娜等產品。梅濤老師是我們從微軟亞洲研究院挖過來的首席科學家,他負責多媒體CV這塊,。周志華教授大家都比較熟悉,基本上可以說是全國最好的機器學習的科學家。
幾大支柱裡,我們還是以偏感知層底層技術為主,主要是語音聲學包括語義理解、深度學習、視覺、NLP,機器學習這幾個底層技術。我們主攻四條線四個場景,客服、零售、市政、醫療,我們希望達到的效果——能通過人工智慧改造在不同行業的解決方案,其實我們在挑選行業的時候也比較小心。
京東大藥房是全國比較領先的線上醫藥售賣平臺,京東健康專門做醫療這塊的事業群,剛融到10億美金的融資額,大部分偏線上藥房售賣。騰訊在做的和CV醫療影像有關,我們可能做的稍微少一點。通API還是偏CV比較多。
京東本身平臺上有大量的相簿,我們整個部門也是負責幫助京東整個圖片庫進行處理,包括生成、稽核。京東拍照購是整個部門做的核心產品,像抖音、快手包括萬圖拍這些公司都在呼叫我們的產品,基本上每天呼叫上億次。每次拍一張圖片就識別,快手也做電商,抖音也做電商轉化,我們能夠做到定單轉化率大概在100%以上,通過這個入口進去之後,基本上每個人都會在這個入口下訂單。
然後是我們的內容供應鏈,包括稽核、生成、識別。京東的SKU數量比較大,理論上來講,我們希望所有的商品比如無論在7—11購買還是在小店購買還是大的超市,能夠有能力沒有條形碼的商品或者不用掃條形碼直接把這個物品放到結算臺下面就可以快速購買、快速下單、快速結賬。我們跟香港馮氏集團合作,比如永輝超市或者華潤萬家,這個產品已經在香港那邊已經落了兩家店,目前還在持續推進中。
智慧攝像方面,京東和《人民日報》合作,能在不同暗場景下準確識別人臉,我們跟北京站也在合作。人臉技術偏於成熟,商業落地比較容易。
1:N的時候,N越大,準確率就在幾何性下降,包括N做到40萬,但是一般來講超過一百萬的N,你的準確率就能下降到90%以下。這塊都是大家攻克的難點,也是CV人臉出來的方向。你把你的準確率提高之後,是不是真正能夠用在工業落地裡面。在落地的時候我們有一個想法,無論準確率95%還是99%,其實本質上區別並不大,只要提高演算法運算速度,包括工程的封裝速度,我能保證快速識別,保證連續識別,這是比較重要的。準確度各家廠商都差不多,都是99%、98%,但具體識別的速度、識別精準度、識別需要的算力,需要的晶片,需要的攝像頭是什麼樣的,我的CPU跑什麼樣的CPU,這塊比較重要一些。
還有一些活體檢測,我覺得人臉識別比較講爛了,沒有什麼特別新的技術,主要還是工程端的提升更加重要。演算法層面都差不多,各家廠商都做得非常好。
屬性檢測這塊,我們做一個多模態的心理諮詢技術,你能從它的人體關鍵體識別比如每條肌肉抖動,當然我講得比較實驗室,其實落地的話還是比較難。每塊肌肉抖動,我去跑一個迴歸演算法,能識別出整個你是什麼情緒或者你佔多少情緒,我們看到美國北卡做姿態識別心理情緒,這塊也是我們看的一個方向。
人工智慧感知層上升到認知層的時候,包括逐漸往應用層走的時候,本質上還是在突破從點到面的過程,希望通過多模態來解決我們很多目前現有的問題,我覺得不僅僅是CV。
我覺得上面講完我們的產品我們的技術,想講一些通用化的目前的技術迭代過程。大家可以看到,我們之前就是一個segmentation,把兩個不同的部位給分開,逐漸我們有detection框算我的landmark。
比如這個馬術師,我識別一個馬術師,識別他騎的馬。之前把整個人框出來,把馬術師和馬一塊兒框出來,現在能做到把馬術師和馬分別框出來,後面做多模態轉化,包括現在描述這個是什麼樣的圖片,這塊有很大的幫助。
CV也在不斷迭代中,CV迭代的時候更多服務的是後面的一些技術,比如CV to NLP,從圖片到文字,這塊是我們在看的論文。CVPR論文是我們研究院梅濤博士發表的論文。一個例子,我在框象素級的圖片而不是框整個可樂罐,現在我能框出可樂罐上LOGO,細到象素級的差距。
多模態轉換這塊話題比較有意思,時間所限,不多說。我們希望通過多模態轉化,從圖片轉到文字,文字轉圖片,現在是文字轉視訊可以,視訊轉文字也可以。
其實從金融角度來講,每次在提升GMV或者ARPU時,本質就是提升交易量,要提高轉化率其實主要還是靠提升使用者體驗,使用者體驗就是給你推薦,你覺得不錯。比如這個妹子去買黑色風衣,她覺得這個搭配鞋可以,我就一塊兒買了,這是我們在提高使用者體驗做的一些事情,本質上我們沒有提高效率,也沒有直接提高收入,但是提高體驗。
剛才講的結算臺,我們再香港落地兩家店。我們講to B,to了半天B還是C在做,把這個東西跟馮氏集團的店合作,還是消費者在買。
前兩天展會,很多媒體在報道這個休息艙產品,集中了模組,觸控屏作為一個支架加到艙裡面,這些都是我們在看的產品。通過人工智慧賦能傳統硬體或者傳統行業,這是我們希望達成一個目標。