AR,即增強現實技術,它的出現意味著能將計算機技術帶到現實當中來,能使科技更“貼近”人們的現實世界的生活,被譽為可能是代替智慧手機的,未來的下一個平臺。
AR的基本定義
AR是對現實的增強,是虛擬影像和現實影像的融合。AR技術具有虛擬現實融合、實時互動、三維註冊三大特徵。其中三維註冊是其中最重要的特徵。
三維註冊(也叫三維配準)強調計算機生成物和現實環境的對應關係,虛擬的物體和現實環境的三維位置和大小必須完美融合。
觀察科技演進的歷史會發現從一開始的工業革命,到現在的資訊科技革命以及正在蓬勃發展必定會興起的認知革命,科技的發展其實意味著現實和虛擬的更好融合。而AR正是這種融合時代的代表性技術。
AR/VR技術的起源,可追溯到Morton Heilig在上個世紀五、六十年代所發明的Sensorama Stimulator。他是一名哲學家、電影製作人和發明家。他利用在電影上的拍攝經驗設計出了圖中這個叫Sensorama Stimulator的機器。Sensorama Stimulator可使用影象、聲音、香味和震動,讓使用者感受在紐約布魯克林街道上騎著摩托車風馳電掣的場景。這個發明在當時非常超前。以此為契機,AR也展開了它的發展史。來看看各時期AR的發展里程碑吧。
很多人對於VR、AR、MR等概念還是處於混淆的狀態,那麼到底如何區別這三者呢?
AR和VR的區別,除了從硬體和技術等方面有區別,歸根到底是要看到底是對現實的增強還是完全的虛擬化。如若是讓人們完全投入進入虛擬世界的沉浸感,則是VR。(如超級學校霸王電影裡面2人進入街機裡面玩超級瑪麗),如若是讓虛擬的事物和現實接軌,則是AR。(如超級學校霸王電影裡面虛擬世界的英雄形象進入真實世界懲罰壞人)
而MR則是讓2者完全的融合,“實時的”進行虛擬和真實的互動。是最終的發展形態。混合現實是實現虛擬和現實的完美融合。目前的MR和AR可以從裝置上來進行區分,有以下2點不同。
比如如果虛擬物體的位置能夠隨裝置而移動,做到隨身隨行,則是MR的實現,如果不能移動,定位在三維世界中,你離開了,虛擬物體還是擺放在剛剛的位置,則是AR。而MR的最高形態,虛擬和現實已經融為一體,有一致的體驗,不容易被區分了。
AR的工作原理
在介紹AR的工作原理之前,我們先透過一個例子,讓大家有一個簡單的認識。
在2009年2月的TED大會上,帕蒂•梅斯(Pattie Maes)和普拉納夫•米斯特萊(Pranav Mistry)展示了他們研發的AR系統。該系統屬於麻省理工學院媒體實驗室流體介面小組的研究成果之,他們稱之為SixthSense(第六感)。它依靠眾多AR系統中常見的一些基本元件來工作:攝像頭、小型投影儀、智慧手機和鏡子。
上圖是一個典型的AR系統結構,由虛擬場景生成單元以及顯示器和頭盔等互動裝置構成。其中虛擬場景生成單元負責虛擬場景的建模、管理、繪製和其它外設的管理;顯示器負責顯示虛擬和現實融合後的訊號;頭部跟蹤裝置跟蹤使用者視線變化;互動裝置用於實現感官訊號及環境控制操作訊號的輸入輸出。
首先攝像頭和感測器採集真實場景的影片或者影象,傳入後臺的處理單元對其進行分析和重構,並結合頭部跟蹤裝置的資料來分析虛擬場景和真實場景的相對位置,實現座標系的對齊並進行虛擬場景的融合計算;互動裝置採集外部控制訊號,實現對虛實結合場景的互動操作。系統融合後的資訊會實時地顯示在顯示器中,展現在人的視野中。
為了保持現實和虛擬的對準,跟蹤和識別的技術就顯得尤為重要。檢測和識別技術包含影象匹配和識別以及語義檢測和識別這2點。
跟蹤定位技術則分為基於硬體的定位技術和基於視覺的定位技術2點。其中基於視覺的跟蹤定位技術最核心的技術,也是主流技術。基於視覺的三維配準包含了這3個發展階段。
二維圖片定位
二維圖片定位是指基於平面物體的識別和定位,比如現在市場上很常見的一些AR技術圖書,又或則是APP應用。這種技術是將現實世界的一張圖片作為定位的錨點,計算機生成的虛擬物體會圍繞這個定位點,融入現實環境中。目前基於圖片定位的AR是最為成熟的技術,廣泛運用在各個地方。目前用在兒童教育圖書方面,會比較多。
三維物體定位
然擴充套件當屬三維物體。一些簡單的規則三維物體,比如圓柱狀可樂罐,同樣可以作為虛實結合的載體。對於一些特定的非規則物體,比如人臉,由於有多年的研究積累和海量的資料支援,已經有很多演算法可以進行實時精準對齊。
基於SLAM的三維環境定位
對於三維環境的動態的實時的理解是當前AR在技術研究方面最活躍的問題。其核心就是最近火熱的“即時定位與地圖構建”(SLAM,SimultaneouslyLocalization And Mapping),在無人車,無人機和機器人等領域也起著核心作用。AR中的SLAM比其他領域中一般難度要大很多,主要是因為AR賴以依存的移動端的計算能力和資源比起其他領域來說要弱很多。目前在AR中還是以視覺SLAM為主,其他感測器為輔的局面,儘管這個情況正在改變。
標準的視覺SLAM問題可以這麼描述為:把你空投到一個陌生的環境中,你要解決“我在哪”的問題。這裡的“我”基本上等同於相機或者眼睛(因為單目,即單相機,請把自己想象成獨眼龍),“在”就是要定位(就是localization),“哪”需要一張本來不存在的需要你來構建的地圖(就是mapping)。你帶著一隻眼睛一邊走,一邊對周邊環境進行理解(建圖),一邊確定在所建地圖中的位置(定位),這就是SLAM了。換句話說,在走的過程中,一方面把所見到(相機拍到)的地方連起來成地圖,另一方面把走的軌跡在地圖上找到。
AR,即增強現實技術,它的出現意味著能將計算機技術帶到現實當中來,能使科技更“貼近”人們的現實世界的生活,被譽為可能是代替智慧手機的,未來的下一個平臺。
AR的基本定義
AR是對現實的增強,是虛擬影像和現實影像的融合。AR技術具有虛擬現實融合、實時互動、三維註冊三大特徵。其中三維註冊是其中最重要的特徵。
三維註冊(也叫三維配準)強調計算機生成物和現實環境的對應關係,虛擬的物體和現實環境的三維位置和大小必須完美融合。
觀察科技演進的歷史會發現從一開始的工業革命,到現在的資訊科技革命以及正在蓬勃發展必定會興起的認知革命,科技的發展其實意味著現實和虛擬的更好融合。而AR正是這種融合時代的代表性技術。
AR/VR技術的起源,可追溯到Morton Heilig在上個世紀五、六十年代所發明的Sensorama Stimulator。他是一名哲學家、電影製作人和發明家。他利用在電影上的拍攝經驗設計出了圖中這個叫Sensorama Stimulator的機器。Sensorama Stimulator可使用影象、聲音、香味和震動,讓使用者感受在紐約布魯克林街道上騎著摩托車風馳電掣的場景。這個發明在當時非常超前。以此為契機,AR也展開了它的發展史。來看看各時期AR的發展里程碑吧。
很多人對於VR、AR、MR等概念還是處於混淆的狀態,那麼到底如何區別這三者呢?
AR和VR的區別,除了從硬體和技術等方面有區別,歸根到底是要看到底是對現實的增強還是完全的虛擬化。如若是讓人們完全投入進入虛擬世界的沉浸感,則是VR。(如超級學校霸王電影裡面2人進入街機裡面玩超級瑪麗),如若是讓虛擬的事物和現實接軌,則是AR。(如超級學校霸王電影裡面虛擬世界的英雄形象進入真實世界懲罰壞人)
而MR則是讓2者完全的融合,“實時的”進行虛擬和真實的互動。是最終的發展形態。混合現實是實現虛擬和現實的完美融合。目前的MR和AR可以從裝置上來進行區分,有以下2點不同。
比如如果虛擬物體的位置能夠隨裝置而移動,做到隨身隨行,則是MR的實現,如果不能移動,定位在三維世界中,你離開了,虛擬物體還是擺放在剛剛的位置,則是AR。而MR的最高形態,虛擬和現實已經融為一體,有一致的體驗,不容易被區分了。
AR的工作原理
在介紹AR的工作原理之前,我們先透過一個例子,讓大家有一個簡單的認識。
在2009年2月的TED大會上,帕蒂•梅斯(Pattie Maes)和普拉納夫•米斯特萊(Pranav Mistry)展示了他們研發的AR系統。該系統屬於麻省理工學院媒體實驗室流體介面小組的研究成果之,他們稱之為SixthSense(第六感)。它依靠眾多AR系統中常見的一些基本元件來工作:攝像頭、小型投影儀、智慧手機和鏡子。
上圖是一個典型的AR系統結構,由虛擬場景生成單元以及顯示器和頭盔等互動裝置構成。其中虛擬場景生成單元負責虛擬場景的建模、管理、繪製和其它外設的管理;顯示器負責顯示虛擬和現實融合後的訊號;頭部跟蹤裝置跟蹤使用者視線變化;互動裝置用於實現感官訊號及環境控制操作訊號的輸入輸出。
首先攝像頭和感測器採集真實場景的影片或者影象,傳入後臺的處理單元對其進行分析和重構,並結合頭部跟蹤裝置的資料來分析虛擬場景和真實場景的相對位置,實現座標系的對齊並進行虛擬場景的融合計算;互動裝置採集外部控制訊號,實現對虛實結合場景的互動操作。系統融合後的資訊會實時地顯示在顯示器中,展現在人的視野中。
為了保持現實和虛擬的對準,跟蹤和識別的技術就顯得尤為重要。檢測和識別技術包含影象匹配和識別以及語義檢測和識別這2點。
跟蹤定位技術則分為基於硬體的定位技術和基於視覺的定位技術2點。其中基於視覺的跟蹤定位技術最核心的技術,也是主流技術。基於視覺的三維配準包含了這3個發展階段。
二維圖片定位
二維圖片定位是指基於平面物體的識別和定位,比如現在市場上很常見的一些AR技術圖書,又或則是APP應用。這種技術是將現實世界的一張圖片作為定位的錨點,計算機生成的虛擬物體會圍繞這個定位點,融入現實環境中。目前基於圖片定位的AR是最為成熟的技術,廣泛運用在各個地方。目前用在兒童教育圖書方面,會比較多。
三維物體定位
然擴充套件當屬三維物體。一些簡單的規則三維物體,比如圓柱狀可樂罐,同樣可以作為虛實結合的載體。對於一些特定的非規則物體,比如人臉,由於有多年的研究積累和海量的資料支援,已經有很多演算法可以進行實時精準對齊。
基於SLAM的三維環境定位
對於三維環境的動態的實時的理解是當前AR在技術研究方面最活躍的問題。其核心就是最近火熱的“即時定位與地圖構建”(SLAM,SimultaneouslyLocalization And Mapping),在無人車,無人機和機器人等領域也起著核心作用。AR中的SLAM比其他領域中一般難度要大很多,主要是因為AR賴以依存的移動端的計算能力和資源比起其他領域來說要弱很多。目前在AR中還是以視覺SLAM為主,其他感測器為輔的局面,儘管這個情況正在改變。
標準的視覺SLAM問題可以這麼描述為:把你空投到一個陌生的環境中,你要解決“我在哪”的問題。這裡的“我”基本上等同於相機或者眼睛(因為單目,即單相機,請把自己想象成獨眼龍),“在”就是要定位(就是localization),“哪”需要一張本來不存在的需要你來構建的地圖(就是mapping)。你帶著一隻眼睛一邊走,一邊對周邊環境進行理解(建圖),一邊確定在所建地圖中的位置(定位),這就是SLAM了。換句話說,在走的過程中,一方面把所見到(相機拍到)的地方連起來成地圖,另一方面把走的軌跡在地圖上找到。