在移動裝置上實時,同時感知人的姿勢,面部標誌和手部跟蹤可以啟用各種有影響力的應用程式,例如健身和運動分析,手勢控制和手語識別,增強現實效果等等。MediaPipe是專門為利用加速推理(例如GPU或CPU)的複雜感知管道而設計的開源框架,已經為這些任務提供了快速,準確而又獨立的解決方案。將所有這些實時地組合成一個語義上一致的端到端解決方案是一個獨特的難題,需要同時推理多個相關的神經網路。
今天,我們很高興宣佈推出,它是針對這一挑戰的解決方案,它提供了一種新穎的,最新的人體姿勢拓撲結構,可以解鎖新穎的用例。MediaPipe Holistic由新的流水線組成,這些流水線具有經過最佳化的姿勢,和元件,每個元件均實時執行,其推理後端之間的記憶體傳輸最少,並增加了對這三個元件的互換性的支援,具體取決於質量/速度的權衡。當包括所有三個元件時,MediaPipe Holistic為突破性的540多個關鍵點(33個姿勢,每手21個和468個面部標誌)提供了統一的拓撲,並在移動裝置上實現了近乎實時的效能。MediaPipe整體作為一部分發布,並且可在裝置上用於移動裝置(Android,iOS)和桌上型電腦。我們還將介紹MediaPipe的新的現成的研究API()和Web(),以簡化對該技術的訪問。
管道和質量MediaPipe Holistic管道集成了用於姿勢,面部和手部元件的單獨模型,每種模型都針對其特定領域進行了最佳化。但是,由於它們的專業不同,因此對一個元件的輸入不適合其他元件。例如,姿勢估計模型採用較低的固定解析度影片幀(256x256)作為輸入。但是,如果要從該影象中裁剪出手部和麵部區域以傳遞到其各自的模型,則影象解析度將太低而無法進行精確的關節運動。因此,我們將MediaPipe Holistic設計為多階段流水線,它使用適合區域的影象解析度來處理不同區域。
首先,MediaPipe Holistic使用BlazePose的姿勢檢測器和隨後的關鍵點模型來估算人姿勢。然後,使用推斷的姿勢關鍵點,為每隻手(2x)和臉部得出三個感興趣的區域(ROI)作物,並採用重新裁剪模型來提高ROI(詳細資訊如下)。然後,管道將全解析度輸入幀裁剪為這些ROI,並應用特定於任務的面部和模型來估計其相應的關鍵點。最後,將所有關鍵點與姿勢模型的那些關鍵點合併以產生完整的540多個關鍵點。
為了簡化ROI的識別,一種類似於獨立面部和的跟蹤方法利用管道。該方法假定物件在幀之間沒有顯著移動,使用對前一幀的估計作為對當前幀中物件區域的指導。但是,在快速移動期間,跟蹤器可能會丟失目標,這需要檢測器將其重新定位在影象中。MediaPipe Holistic使用姿勢預測(在每個幀上)作為附加的ROI,以減少對快速移動做出反應時管道的響應時間。這還可以透過防止框架中一個人的左右手或身體部位與另一個人的混合而使模型在整個身體及其部位之間保持語義一致性。
另外,姿勢模型的輸入幀的解析度足夠低,以致於臉部和手部的最終ROI仍然不夠準確,無法指導那些區域的重新裁剪,這需要精確的輸入裁剪來保持輕巧。為了彌補這一精度差距,我們使用了輕巧的面部和手部裁剪模型,這些模型扮演了空間變形器的角色,並且僅花費了相應模型推理時間的10%左右。
MediaPipe Holistic每幀最多需要8個模型之間的協調-1個姿勢檢測器,1個姿勢界標模型,3個重新修剪模型和3個用於手和臉的關鍵點模型。在構建此解決方案時,我們不僅優化了機器學習模型,還優化了預處理和後處理演算法(例如,仿射變換),由於流水線的複雜性,這在大多數裝置上花費了大量時間。在這種情況下,根據裝置的不同,將所有預處理計算移至GPU可以使整體管線速度提高約1.5倍。結果,MediaPipe Holistic即使在中間層裝置和瀏覽器中也能以接近實時的效能執行。
流水線的多階段性質提供了另外兩個效能優勢。由於模型大多是獨立的,因此可以根據效能和精度要求用較輕或較重的版本(或完全關閉)替換它們。而且,一旦推斷出姿勢,就可以精確地知道手和臉是否在框架範圍內,從而允許光線跳過對那些身體部位的推斷。
應用程式MediaPipe Holistic具有540多個關鍵點,旨在實現整體,同時感知肢體語言,手勢和麵部表情。它的混合方法支援遠端手勢介面以及全身增強現實,運動分析和手語識別。為了演示MediaPipe Holistic的質量和效能,我們構建了一個簡單的遠端控制介面,並在瀏覽器中本地執行並實現了引人注目的使用者互動,無需滑鼠或鍵盤。使用者可以操縱螢幕上的物件,坐在沙發上用虛擬鍵盤打字,並指向或觸控特定的面部區域(例如,使相機靜音或關閉相機)。在其下方,它依賴於精確的手部檢測,隨後的手勢識別被對映到錨定在使用者肩膀上的"觸控板"空間,從而可以實現長達4米的遠端控制。
當其他人機互動方式不方便時,這種用於手勢控制的技術可以解鎖各種新穎的用例。並用它來原型化您自己的想法。
MediaPipe用於研究和Web為了加速ML研究及其在Web開發人員社群中的採用,MediaPipe現在提供了可使用的,可自定義的ML解決方案,使用Python和JavaScript。我們從以前的出版物中開始:Face Mesh,Hands和Pose,包括MediaPipe Holistic,還有很多其他出版物。直接在網路瀏覽器中嘗試使用它們:對於使用Python的Google Colab上的MediaPipe中的筆記本,以及對於JavaScript和您在CodePen上的MediaPipe中使用自己的網路攝像頭輸入!