目前的虛擬現實技術通常使用固定距離的2D顯示器來使使用者產生3D觀看的錯覺,經常會導致使用者噁心和眼睛疲勞,而有60年多歷史的全息圖技術可根據觀看者的位置提供變化的視角,並允許眼睛調整焦深以交替聚焦在前景和背景上,可以出色地呈現觀看者周圍的3D世界,將會給數字世界帶來更好的3D視覺化解決方案。
典型的基於鏡頭的照片編碼每個光波的亮度,這種照片可以真實地再現場景的顏色,但卻是一種平面圖像。全息影象由於既編碼每個光波的亮度,又編碼相位,因此可以更真實地描述場景的視差和深度,但其製作和共享面臨挑戰。
20世紀中期發展的早期全息照相方式是光學記錄式的,需要將一束鐳射分開,一半用於照亮物體,另一半用作光波相位的參考,以產生全息圖獨有的深度感,其生成的影象是靜態的,因此無法獲取動態資訊,而且那些影象只能硬複製,難以進行復制和共享。
長期以來,研究人員一直在尋求透過計算機生成全息影象,但該過程需要使用超級計算機來進行物理模擬,非常耗時,且所產生的結果缺乏真實感。現代計算機透過模擬光學裝置生成全息影象,由於場景中的每個點都有不同的景深,這大大增加了演算法的複雜性,因為無法對所有的點進行相同的操作,而且現有演算法還無法對遮擋進行高逼真精度建模。因此MIT的科研人員採用了另一種方法:讓計算機自己學會物理學。
他們使用深度學習來加速計算機生成的全息圖,從而實現實時全息圖的生成。該團隊設計了一種卷積神經網路,使用一系列可訓練的張量來大致模擬人類如何處理視覺資訊,並建立了一個包含4000組計算機生成影象的資料,每組圖片都與其對應的全息影象相匹配(包括每個畫素的顏色和景深資訊)。為了在新資料庫中建立全息影象,研究人員使用了具有複雜且可變形狀和顏色的場景,具有從背景到前景均勻分佈的畫素景深,並使用了一組新的基於物理的計算來處理遮擋,從而構建了高逼真度的訓練資料。透過對每組訓練影象的學習,張量網路逐步增強了其建立全息影象的能力。完全最佳化後的網路的執行速度比基於物理的計算快幾個數量級。
利用由計算機生成的具有景深資訊的影象,研究人員透過張量全息術可以在幾毫秒內製作出全息影象,景深資訊影象可透過多鏡頭相機或LiDAR感測器(已經是一些智慧手機的標準配置)計算獲得。此外,這種緊湊的張量神經網路需要的記憶體還不到1 MB。
該項技術為實時3D全息影象鋪平了道路,可以很容易地部署在調製光波相位的顯示器中,採用該項技術的3D全息顯示器甚至可以根據觀看者的視力情況進行定製,以矯正眼睛的像差。該技術還可以促進體積3D列印技術的發展,其比傳統的逐層3D列印更快、更精確。其他的可能應用還包括顯微鏡、醫學資料視覺化、以及具有獨特光學特性的表面設計等。
這項工作得到了索尼公司的部分資助,相關論文《Towards real-time photorealistic 3D holography with deep neural networks》已在Nature期刊上發表。