回覆列表
  • 1 # cnBeta

    在非洲大陸的部分地區可以找到英語、阿拉伯語和法語方言,這些方言在部落、族裔群體和國界中使用,但它們並非非洲本土方言。一些語言學家估計非洲大陸上存在的語言種類為2000種或更多。這可能會阻礙通訊和商業發展。今年年初,這種擔憂導致建立了Masakhane開源專案,非洲技術人員正在努力使用神經機器翻譯來翻譯非洲語言。

    Kathleen Siminyu是肯亞盧希亞部落的成員。儘管學校和全國各地都說英語,但部落說不同的語言,這在Siminyu和她的鄰居之間造成了語言障礙。為了使社群團結在一起,她於今年早些時候加入Masakhane,積累了作為內羅畢機器學習和資料科學女性分會的聯合組織者以及AI for Development協調員的經驗。

    Siminyu認為,使用機器學習翻譯語言可能是非洲AI用例增長的關鍵,並使非洲人能夠將AI應用到造福非洲人的生活中。Siminyu表示,諸如Masakhane之類的專案對於連線非洲的開發人員和研究人員社群以及建立框架以建立持續的長期合作至關重要。

    她說道:“目前,我正在思考研究網路如何在這個大陸上運作。” “我認為語言是一種障礙,如果消除這種障礙,語言將使許多非洲人能夠參與數字經濟,並最終參與人工智慧經濟。我覺得……將非數字時代的人們帶入AI時代是我們的責任。”

    Masakhane專案與非洲的AI研究人員和資料科學家合作,該組織旨在建立連線非洲眾多人口的神經機器翻譯。該專案是由來自南非的Jade Abbott和Laura Martinus建立的,並在Indaba深度學習和Sauti Yetu NLP Unconference上進行了演講和交談之後聚集在一起。“ i.Masakhane”的名稱在isiZulu中意為“我們共同建設”。

    Masakhane與無國界譯者等組織以及學者合作,以查詢語言資料集。除了將非洲本地語言翻譯成英語外,該專案還將尋求翻譯方言,例如奈及利亞的Pidgin English或非洲北部和中部的阿拉伯語。

    建立針對非洲語言的機器翻譯後,該小組設想了一系列使非洲人受益的開源專案的潛力。該小組目前有來自整個非洲大陸的約60名貢獻者,但在南非、肯亞和奈及利亞最為活躍。專案要求每個參與者以各自的母語幫助收集資料或訓練模型。

    Masakhane並不是唯一一個為非洲提供的更多機器翻譯的雄心勃勃的計劃。本週,Mozilla和德國政府部門啟動了一個 開源專案,以收集來自非洲當地語言的語音資料。

    本月初,Siminyu與人工智慧促進發展合作,與資料科學挑戰網站Zindi一起發起了非洲語言資料集挑戰賽。除了Siminyu和Abbott,評估資料集的顧問還來自Google AI和Facebook AI Research。挑戰參與者製作的資料集將來可能會用於訓練Masakhane的神經模型。

    根據GitHub的2019年Octoverse報告,當肯亞和奈及利亞等國家成為全球開源專案增長最快的貢獻者團體之時,專案開始大批湧現。最近幾周,非洲技術和開發人員生態系統的增長吸引了Twitter CEO Jack Dorsey和GitHub CEO Nat Friedman等矽谷高管訪問了奈及利亞的拉各斯等非洲部分地區。

    Masakhane的志願者在一次集體採訪中告訴VentureBeat,機器翻譯對非洲的好處是巨大的。受訪者來自非洲大陸的各個角落-突尼西亞、奈及利亞,南非和剛果民主共和國-他們表示希望將非洲納入全球AI地圖,並找到解決非洲問題的辦法。

    “我們可以解決我們的問題。我們擁有專業知識、智慧、知識,我們只需要對此承擔一些責任。”專注於奈及利亞約魯巴島的研究人員Olabiyi Samuel說。廣泛可用且準確的非洲語言機器翻譯可以使更多的非洲聲音在線上進入全球對話,或快速將教育材料從英語翻譯成非洲語言。多項研究發現,當人們以母語接受教學時,他們會學得更好。Siminyu和其他專案參與者希望Masakhane成為一系列研究專案的起點,這些研究專案可以將AI應用於非洲挑戰並改善對該大陸重要的其他部門的生活。

    “我們應該考慮農業以及我們如何解決糧食問題。我們應該考慮氣候變化、我們應該考慮醫療保健……我認為語言是切入點。” 但是Siminyu也承認面臨的挑戰,她表示說:“是的,我認為路很長。”

    Espoir Murhabazi居住在剛果民主共和國,主要研究班圖語Lingaga。他想更好地理解班圖語,以及機器學習如何從包含共同詞根的單詞中推斷出含義。班圖語是一種凝集性語言,意味著單詞可以包含詞幹含義和多個元素來構成每個單詞。這是解決Masakhane所面臨的語言之間的結構差異所面臨的一系列技術挑戰的示例。

    在一個更有趣的層面上,Murhabazi希望看到像Masakhane這樣的專案能夠將歌曲翻譯成英語,從而使每個喜歡音樂的人都能理解歌詞。他說道:“上一次我在肯亞時,發現人們在夜總會和酒吧裡隨著音樂跳舞,卻聽不懂意思。”

    Masakhane的工作將分階段進行,首先是使用政府檔案或報紙等公開可用的資料將英語翻譯成非洲語言。完成後,該小組計劃為翻譯建立單獨的基準模型。然後,他們將作品提交給世界各地的NLP頂級會議。

    Abbott表示,該專案現在處於資料收集和翻譯階段,因為與構成現代網際網路主幹的歐洲語言不同,非洲語言缺乏基準和大型資料集。Masakhane專案的參與者除了創造數字經濟並允許人們用自己的語言學習之外,還希望非洲人成功建立AI專案。

    許多AI研究會議在歐洲,亞洲或北美舉行,儘管行業和國家對AI人才的全球需求很大,但政府有時甚至拒絕非洲人進入該領域,即使他們正在西方國家學習。例如,當加拿大溫哥華準備迎接全球最大的AI研究會議NeurIPS時,下個月,包括Masakhane志願者在內的非洲和亞洲研究人員報告說,加拿大政府拒絕了簽證。

    對於Abbott 和Martinus來說,前往非洲以外地區活動的能力(例如NeurIPS)已帶來了好處,這些好處可以直接應用於蓬勃發展的Masakhane專案。Abbott 表示,在此類事件中,其他NLP開發人員在嘗試最佳化模型效能時會分享100多個技巧,觀點和經驗教訓。

    Abbott認為:“與在全球範圍內使用低資源語言工作的社群的聚會確實激發了我們的研究興趣。”例如,在推出後不久,Masakhane 從“ Jehovah’s Witness”的文字中查看了380種語言的 JW300資料集,這是該小組參加ACL後獲得的見解。

    “我們正在研究的資料集範圍是…20000個句子,這在機器翻譯世界中很小。她表示:“這個JW300資料集中的同一語言以100萬個並行句子結束,這是一個巨大的進步。”

    雄心勃勃的Masakhane專案仍處於初期階段,正在尋找志願者,目前正在收集數千種語言的資料。像MySQL,Python和TensorFlow這樣的開源專案為現代網際網路和機器學習等學科的發展奠定了基礎。

    如今,來自歐洲、亞洲和北美等地的開發人員仍然在開源專案貢獻方面居世界領先地位,但是,如果Masakhane及其類似專案取得成功,這可能會非洲大陸和世界其他地區帶來重大變化。

  • 中秋節和大豐收的關聯?
  • 乒超聯賽為何成了國家隊打省隊、無外協球員、無關注的雞肋賽事?