回覆列表
-
1 # 科技行者
-
2 # 智匯有初
科技的風口
變得比大西洋的暖溼氣流都快
AR/VR
人工智慧
雲計算
大資料
5G
物聯網
元宇宙
……
背後的資本呼來和去
什麼時候開始
AI語音成就了一批上市公司
潮水退去
又一股新風颳起
AI手勢識別
漸漸獲得資本青睞
開啟搜素引擎
“度娘”
“音浪”
“歌神”
“大馬車”
……
都是擁躉
細細想來
AI語音代替耳朵
AI手勢識別代替眼睛
地位一樣不可小覷
下一波風口
不遠了
以元宇宙為例
AR眼睛進行成像顯示
而手勢識別實現場景中無接觸互動
有初科技
依託哈爾濱工業大學技術團隊
研發Space Touching技術
應用場景
從現實世界的家電、汽車、手機……
到虛擬世界的A、VR、元宇宙……
屬於底層互動技術
新的風口爆發
必然帶動AI手勢識別飛起
拭目以待
谷歌公司的科學家們今年推出了一種新的計算機視覺方法,用於實現手部感知。作為幕後推手,機器學習技術為提供了強大助力。根據介紹,該方案能夠在實機實驗中僅憑一幀影象識別出一隻手(或者多隻手)上的21個3D點位。與目前市面的手勢識別技術相比,谷歌的全新技術不需要依賴桌上型電腦來計算,只要在手機上就能進行實時追蹤,並且還能同時追蹤多隻手,可識別遮擋。
早在今年6月,谷歌就在2019計算機視覺與模式識別大會上公佈了此項技術的預覽版本。2月之後,谷歌於美國時間8月20日正式宣佈將該技術集成於MediaPipe當中。MediaPipe是一套開源跨平臺框架,用於構建多模應用機器學習流水線,可以處理不同模態(例如影片與音訊)中的感知資料。該專案的原始碼以及端到端使用場景目前都已經在GitHub上全面公開。
研究工程師Valentin Bazarevsky和Fan Zhang在博文他們的當中寫道:“感知手部形狀與運動姿態的能力,有望成為改善各類技術表現及平臺使用者體驗的重要助力。我們希望將這種手部感知功能交付至更為廣泛的研究與開發社群處,利用大家的力量共同促進創新用例的出現,刺激新的應用方式並開拓出前所未有的研究途徑。”
據瞭解,谷歌的這一技術包含三套串聯工作的AI模型:一個手掌探測模型(BlazePalm)用於分析框體並返回手部動作邊框;一個手部標記模型(Landmark),用於檢視由手掌探測器定義的裁剪後圖像區域,並返回3D位點;一個手勢識別模型,用於將之前計算得出的位點歸類為一組手勢。
BlazePalm:手部識別絕不像聽起來那麼簡單。GlazePalm必須能夠解決手部遮擋這一現實難題。為此,谷歌團隊訓練出一款手掌探測器BlazePalm——注意,是手掌而不是手部。他們認為,對拳頭這類物體進行邊界框描繪,在難度上要比跟蹤手指低得多。具體地,BlazePalm可以識別多種不同手掌大小,具備較大的縮放範圍,還能識別手部遮擋,能透過識別手臂、軀幹或個人特徵等資訊準確定位手部。除此之外,這種方式還有另一大優勢,就是能夠很好地相容握手等特殊場景,利用忽略其它寬高比條件的方形邊框模擬手掌,從而將所需的3D點數縮減至以往的三分之一到五分之一。據統計,經過訓練之後,BlazePalm識別手掌的準確率可以達到95.7%。
Landmark:在手掌檢測之後,手部標記模型開始接管,負責在檢測到的手部區域之內建立21個由手到肘的3D定位座標。在訓練當中,模型要求研究人員手動註釋多達3萬份真實場景下的影象,並立足多種背景對相應座標進行渲染和對映,最終創建出高質量的合成手部模型。據統計,在經過訓練後,演算法的平均迴歸誤差可降低到13.4%。
手勢識別模型:流水線上的最後一步是手勢識別,該模型利用關節旋轉角度來確定每根手指的狀態(如彎曲或伸直),並將手指狀態集合與預定義的手勢對映起來,進而預測基礎的靜態手勢。Bazarevsky和Zhang介紹稱,該模型能夠識別來自多種文化(例如美國、歐洲與中國)的算數手勢,以及握拳、“OK”、“搖滾”、“蜘蛛俠”等常見手勢。
除此之外,這些模型也可以執行對應的單獨任務,例如利用顯示卡進行影象裁剪與渲染,從而節約計算資源;並且,手掌探測模型只有在必要時才執行——因為在大多數時段內,後續影片幀內的手部位置只憑計算出的手部關鍵點即可推理得出,不再需要手掌探測器的參與。也就是說,只有當推理置信度低於某個閾值時,手部檢測模型才會重新介入。