首頁>科技>

“馬雲成功的背後有千千萬萬個女人。”

所以,阿里巴巴誕生了全球最大的電商搜尋系統。沒錯,敗家娘們買東西搜出來的“最大”。

這個“最大”還包括商品量、使用者量、引導的成交額、點選成交量、引擎的訪問次數、訪問QPS…最大往往生出“最難系列問題”,在阿里巴巴內部,每天都在舉辦大資料的運動會,科學家大牛、攻城獅、程式猿、小白都在裡面參與各種競技專案。

內部競技不過癮,阿里巴巴要把“最難系列”上交給大資料領域的“奧運會——KDD CUP。KDD是Knowledge Discovery and Data Mining的縮寫,即知識發現與資料探勘。工業界的難題交給學術界和社會各界。

作為資料領域最有影響力、最高水平的國際頂級賽事,每年都會吸引世界資料領域的頂尖專家、學者、工程師、學生等前來參賽,在每年的KDD會議中佔據著舉足輕重的地位。

而且,每屆冠軍都會被谷歌、阿里、微軟、騰訊、百度等技術巨頭追逐,被第四正規化等AI獨角獸企業青睞。

“最難系列問題”有很多。比如,

小測驗 一:比如在有限計算資源情況下,如何拿到更好的商品排序結果?二:怎樣保證使用者的搜尋體驗(包括結果返回時間、返回商品量等)?三:怎麼保證電商場景下的多目標(包括點選、成交量和成交額)?

論述題一、儘管,學術界和工業界都有大量learning to rank方面的研究,想讓機器學習技術,為使用者給出更優的排序結果。然而絕大部分相關工作都集中在如何提升排序的品質,卻並不關係排序的效率,而太低效的排序方案在實際的工業線上應用中,往往是不可接受的。那麼問題來了,怎麼辦?

論述題二、買東西有問題想問賣家,客服準備好了一堆套路,“親,……”還是問買家靠譜,淘寶“問大家”功能誕生了,比如有些人想要購買毛衣,但他對此持有疑問,系統發現確實有機會或有潛力回答這些問題的使用者後,在抽象意義上匹配這個問題,從而對問題進行精準分配。

那麼問題來了,如何實現大規模線上精準匹配?

別再說了,這些題太難,我們不會做……

莫慌,以上這些阿里巴巴在業務中遇到的問題,也都在歷屆KDD大會和比賽中有所涉及。(以上問題均為歷年賽題所涉及,有興趣的同學自己找答案)

老規矩,KDD CUP主辦方有兩個任務,出題和出資料,賽題要回歸產業應用。當然,還要給獲獎者準備獎品。KDD CUP 2020將於4月正式開始報名,阿里巴巴為參賽團隊準備了兩大賽題。

往年KDD CUP參賽選手與主席合影

KDD CUP賽題一:多模態商品推薦

隨著大資料的發展,目前人們每天都在接收著大量的文字、影象和視訊等多種模態的資訊,如直播、短視訊、圖文等等。多模態資訊的學習和處理具有重大的現實意義,是搜尋推薦、金融反欺詐等領域的重要技術。尤其對於電商行業而言,利用好多模態資料能夠極大地促進電商行業的發展。

“電商場景的多模態商品推薦”賽題,要求選手針對給定的文字召回最相關的商品圖片和商品視訊。阿里巴巴提供了豐富的商品標題文字、商品圖片和商品視訊的資料集,規模達到300萬以上,可供參賽選手訓練模型。

其中該資料集中每條資料包含配對的商品標題和商品圖片/視訊。測試過程中,主辦方提供了比賽所用的文字描述以及可供召回的商品圖片和視訊,選手需要根據這些描述召回與之最相關的圖片和視訊。

人類的認知往往是基於多模態的資料的,人類理解世界是結合了對視覺和語言的理解的過程。要想走向從感知智慧走向認知智慧,智慧繞不開理解視覺資訊、語言和世界知識這一關。跨模態理解資料是認知智慧突破的核心技術。

於是,多模態的表徵學習會是非常值得研究的方向。隨著預訓練技術在視覺和自然語言處理等領域都取得了長足的進展,我們有理由相信多模態預訓練也能夠取得成功,幫助更多相關的下游任務實現更大的效果上的突破,也推動AI研究往認知智慧的方向發展。

阿里巴巴科學家宋樂在KDD2018大會

阿里巴巴達摩院認為,認知智慧有望帶來顛覆性創新的產業價值。所以,達摩院將“人工智慧從感知智慧向認知智慧演進”列為2020十大科技趨勢之首。

阿里巴巴的技術小哥哥偷偷告訴我:“阿里巴巴以多模態檢索的任務形式開放,屬業界首次哦。”

KDD CUP賽題二、Fairness of Exposure 消除人工智慧偏見——曝光偏差

人工智慧(AI)可以模仿和放大人類的偏見,它的這個“拜高踩低”的特點,限制了它的發展,所以,關注公平與消除偏見是人工智慧可持續發展的必要條件。

2014年,當亞馬遜(Amazon)組建團隊開發其新招聘引擎時,它曾被寄予很高的期望。這個實驗性的解決方案使用人工智慧來對候選人簡歷進行評分,以識別出最優秀的人才。然而,在測試解決方案後不久,研究小組發現該系統並沒有以性別中立的方式對候選人進行打分。

與任何深度學習演算法一樣,該演算法依賴於對歷史資料的訓練。不幸的是,嵌入其中的現實世界資料具有顯示性別偏見的模式,而人工智慧演算法最終將其納入了功能。如果應聘者是“女子籃球隊”的一員,那麼對該簡歷的評分就會較低。

現今以深度學習為代表的主流人工智慧系統主要從資料中學習知識,許多技術專家和倫理學家因此,日漸擔心人工智慧會吸收和反映資料中存在的偏見,以致損害部分群體的權益、進而無法構建可持續發展的人工智慧生態,比如對女性、黑人的偏見(比如錯誤地認為女性不適合某種職業、黑人信用不好)時,深度模型在擬合這些資料時會毫無保留地把這些偏見也吸收進模型裡。

在電商領域也存在類似的情況,例如,小商家有好的商品,但卻很難得到平臺的推薦。因此,消除人工智慧的偏見尤其重要。

圖靈獎得主Geoffrey Hinton尖銳地指出「任何通過擬合數據學到的東西都會學到資料中的所有偏見」,考慮到收集毫無偏見的資料是幾近不可能的,Hinton因此倡議人工智慧從業者在開發演算法時「對資料中的偏見進行建模,以有效地消除這些偏差」。

例如,把女性、黑人在教育、經濟等成長環境中的多方面因素考慮進去,(1)建立一個模型來刻畫這些因素與“職業匹配度”“個人信用”的聯絡,(2)結合因果推理的方法,來判斷“性別”、“種族”與“職業匹配度”“個人信用”是否真的存在因果關係。

現在人工智慧HR,已經被“失業”了,重要的是未來我們該怎做?

出題和出資料是一件艱苦的工作,沒有那麼簡單,2017年,阿里巴巴“資料科學家團隊”在選題上就花費了1個月的時間。

這些重要的業界難題,已經被阿里巴巴送上了古希臘的奧林匹亞聖城,期待與各界人士共享“知識發現與資料探勘”的盛事,2020年的大資料 “奧運會”,不推遲。(完)

最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 連虧十年的美團終於盈利了?擴張版圖的同時,新的問題來臨