“最初打算幫助殘疾人,是因為我在卡耐基梅隆讀博時,結識了一位從 IBM 到我們學校訪問的盲人教授。和她一起去朋友家時,發現她的生活非常不方便,這也是我設計盲人螢幕閱讀器的起因。”對密歇根大學計算機科學與工程系 90 後華人教授郭安鴻來說,“科技向善”是他身上抹不去的標籤。
很多人都曾在課本上學習過海倫·凱勒的《假如給我三天光明》,由於失聰和失明,她只能透過觸覺來學習說話,比如把手指放在老師的鼻子、嘴唇和咽喉上,去感受某個單詞的發音方式。
基於此,郭安鴻研發出一款人機互動系統,來幫助盲人讀取、以及使用物理操作介面上的內容。
該系統包含三大塊:VizLens、Facade 和 StateLens。其中 VizLens 幫助盲人透過音訊指示去使用物理操作介面,Facade 使用 3D 列印技術給其提供盲文標籤,而 StateLens 則可以幫助他們識別動態操作介面。
VizLens:可給盲人提供實時幫助VizLens 是用於靜態物理操作介面的互動式螢幕閱讀器,它結合了按需眾包和實時計算機視覺技術。
當盲人遇到某個無法閱讀的靜態介面如微波爐介面時,使用手機對操作介面進行拍照,之後 VizLens 會把照片傳送給網路眾包人員。
眾包是一種透過網際網路多人協作獲得資料資源的方式,比如 Amazon Mechanical Turk 眾包網站就是藉助遍佈在網際網路上的自由職業者,透過他們完成一些細小工作,最終彙集在一起解決大型問題。
之後,當盲人要操作微波爐介面時,只需開啟 VizLens 應用程式,把手機攝像頭對準介面,接著把手指懸停在介面上,這時 VizLens 會使用基於 SURF(Speeded Up Robust Features,加速穩健特徵)的物件匹配技術,將眾包標記的參考影象、與實時捕獲的影象進行匹配,並跟蹤使用者的手指,進而去做檢索、提供音訊反饋和指導使用者。
有了這種即時反饋,VizLens 就能實時地把介面內容告訴給盲人。此外,VizLens 還權衡了眾包人類智慧和計算機視覺的優勢,因此它對物理介面的解釋能力,幾乎和人工一樣準確,並且它和計算機視覺系統一樣快捷且低成本。
Facade:方便盲人獨立讀取的 3D 列印觸覺覆蓋層一般來說,盲人經常在家電上貼盲文標籤。基於 VizLens,郭安鴻進一步開發出 Facade,這是一款可讓盲人獨立讀取的 3D 列印觸覺覆蓋層。
接著,Facade 會用類似 VizLens 的眾包方法對影象作出標記。這時,盲人可以使用 Facade 應用程式,來自定義觸覺覆蓋層,隨後 Facade 可據此生成 3D 模型,這時使用家用 3D 印表機,即可製造出觸覺覆蓋層。
研究中,郭安鴻經歷幾次設計迭代,最終確定了最有效的覆層設計、材料配置和印表機設定,以使 3D 列印的覆層易於附著、讀取和按壓。
概括來說,VizLens 和 Facade 使盲人使用者可以訪問許多靜態介面。郭安鴻又在此基礎上,開發了 StateLens,這是一種用於公眾資訊顯示屏和支付終端等動態觸控式螢幕。
StateLens:解決誤觸難題盲人一旦觸碰螢幕,就很容易帶來誤操作,為解決此類觸控難題,針對使用過程中的意外觸發因素,郭安鴻又設計出一套 3D 列印附件,即指帽和手寫筆。
使用中,盲人透過手勢啟用所需的觸控位置,無需直接觸控式螢幕幕即可瀏覽。據悉,StateLens 可在不修改觸控式螢幕基礎硬體或軟體的情況下,為公共觸控式螢幕帶來 “無風險使用”,這也是可訪問觸控式螢幕互動的核心。
在對 StateLens 進行評估的過程中,他們首先透過 12 個觸控式螢幕裝置和 70K 多幀的實驗影片,證明出 StateLens 可從固定影片、手持影片和網路影片中準確地重建介面。隨後,再對 14 位盲人參與者做使用者研究。這時,他們發現這款人機互動系統,可使盲人訪問此前無法訪問的動態觸控式螢幕。
“你是我的眼”:盲人自己也可使用微波爐談及研發過程,郭安鴻表示:“我剛到匹茲堡時,不太熟悉當地使用者和組織,但我做的是和盲人有關的專案,想要接觸他們就更難。後來參加了一些當地的 meet up 活動,得知在一些圖書館裡,有一些盲人在那裡工作。透過這樣一個滾雪球的方式,我一點點地找到了一系列使用者。後面很多類似專案,我都可以去聯絡他們,看他們是否有時間給到一些反饋意見、試用一下我們做的產品等等。”
他說:“除了和 IBM 盲人教授相處的經歷之外,透過觀察圖書館盲人工作人員,也讓我更加關心盲人的生活,比如說他們在使用微波爐這種物理操作介面或觸屏裝置的時候,有很多不方便的地方。然後我就想到可以透過計算機視覺、眾包以及可穿戴裝置等技術,設計一個系統,來幫助盲人用這種物理操作介面。”
系統初步完成後,郭安鴻在使用者給產品做測試的過程中,非常有個人成就感。一方面系統可給盲人生活提供實質性幫助,另一方面他自己對人機互動領域的興趣和熱愛,也帶來了一定的現實影響。
比如 Facade,其過程涉及到 3D 列印。那麼,它到底該怎麼打盲文?怎麼讓盲人摸到後就能識別?需不需要考慮多種顏色?如何讓有一點點視力的盲人得到更好的幫助?針對這些問題,郭安鴻在收集使用者反饋後,最終找到了最佳 3D 列印設定。
目前他正計劃把該成果放在網上,作為免費應用供盲人使用。另一方面,微軟、蘋果、谷歌也在做殘疾人相關的技術研究,郭安鴻之前曾和他們有過具體的合作,以後他想在這方面做更多拓展。
“畢業即教授”:28 歲拿到博士學位、併成為助理教授郭安鴻是遼寧瀋陽人,1992 年生人,小學畢業後就讀於東北育才少兒班,16 歲高中畢業,隨後北上並來到北京郵電大學讀書,20 歲時本科畢業。
本科畢業後,他來到佐治亞理工學院讀碩士,畢業後到卡內基梅隆大學讀博,28 歲時博士畢業,2020 年是他博士畢業的年份,也是他在密西根大學獲得助理教授教職的年份。來密西根大學教學之前,他還在微軟、谷歌等公司參與過專案。
談及過往,他表示:“我在這個過程中遇到了很多非常好的導師,參與到一些非常開眼界的專案,然後才讓我一點點接觸到科研,並可以獨立開展這些有意思的研究。”
由於他本科是電子資訊工程專業,期間曾參與一個用計算機視覺、來進行手勢識別和臉部識別的控制遊戲專案。後來他逐漸瞭解到人機互動,並且對此十分感興趣,於是申請了一些相關專案,並一步步走上研究軌跡。
當問到是否初心不改、延續著一直以來的研究路線時,郭安鴻說:“我覺得研究路線其實一直都在變,因為時間也都在變,並且這些研究的學科也都在發展。不變的是我想要讓世界變得更好,希望做的專案實際上可以幫助到殘疾人,讓他們的生活變得更便利。”