數碼相機所用的現代影象感測器基於半導體(固態)技術,並於二十世紀七十年代初問世。主要分為兩種型別:電荷耦合器件(charge-coupled devices)和主動式畫素感測器(active-pixel sensors)。它們可以“忠實地”從環境中捕獲視覺資訊,但會生成大量冗餘資料。通常的方式是將大量光學資訊轉換為數電格式,然後傳遞到計算單元進行影象處理。
在感測器和處理單元之間大量資料移動會引起延遲和高功耗等問題。隨著成像速度和畫素數量的增加,頻寬帶來的限制使得難以將所有內容快速返回到中央計算機或基於雲的計算機並進行實時處理和決策,這對一些對延遲非常敏感的應用如無人駕駛汽車、機器人或工業製造等尤為重要。
一種更好的解決方案是將一些計算任務轉移到計算機系統外部邊緣感測裝置,從而減少不必要的資料移動。由於感測器的輸出通常是模擬訊號(連續變化),模擬處理勝於數字處理:眾所周知,模數轉換既耗時又耗能。
為了模擬大腦對資訊的有效處理,生物神經形態工程採用了一種計算架構。該架構採用高度互連的元素(神經元,通過突觸連線),從而實現平行計算(見圖1a)。這些人工神經網路可以通過迭代學習周圍環境——例如,為其提供已知示例展示,對事物進行分類(監督學習);或者,無需額外資訊就能通過輸入資料識別物件的特徵結構(無監督學習)。在學習期間,演算法會反覆進行預測,並增強或削弱網路中的每個突觸,直到達到最佳設定。
圖1:在視覺感測器內進行計算,實現智慧高效的預處理。(a)傳統人工智慧(AI)視覺感測器從光敏感測器收集訊號,利用模數轉換器(ADC)將模擬訊號轉換為數字訊號,放大後輸入到外部人工神經網路(ANN)——連線可以進行調整的互連計算單元(圖中用圓形表示)層,經過訓練後,此網路可以執行諸如影象分類之類的任務。ANN輸入層接收的訊號是編碼後的簡單物理元素(圖中用點和線表示);在後續層中,這些已優化為中級特徵(圖中用簡單形狀表示);在輸出層上形成精細影象(圖中用3D形狀表示)。整體響應可能是又慢又耗能。(b)Mennel等研究人員設計的系統中,晶片上的互連感測器(圖中用正方形表示)不僅可以收集訊號,還可以作為ANN來識別簡單功能,從而減少了感測器和外部電路的冗餘資料移動。
Mennel等研究人員直接在影象感測器加入了人工神經網路。他們在晶片上構建了光電二極體網路,這些光電二極體是對光敏感的微型單元,每個單元中有幾層二硒化鎢(WSe2)原子層。通過調節施加在二極體上的電壓,半導體器件對光的響應程度發生變化,從而實現對每個二極體靈敏度的分別調節。實際上,這將光電感測器網路變成了神經網路(見圖1b),能夠執行簡單的計算任務。改變光電二極體的光響應能力則改變網路的連線強度(突觸權重)。因此,該器件實現了光學感測與神經形態計算的結合。
作者將光電二極體排列成九個畫素的正方形陣列,每個畫素有三個二極體。當影象投影到晶片上時,會產生不同的二極體電流,再進行組合和讀取。硬體陣列提供了一種模擬計算形式:每個光電二極體都會產生與入射光強度成比例的輸出電流,並且根據基爾霍夫定律(電路電流所遵循的基本規律)將沿行或列的電流值求和。
接著對陣列進行執行任務的訓練。晶片陣列產生的電流與預測電流(對於給定任務,陣列正確響應影象應產生的電流)的差異,並用於調整下一次訓練週期的突觸權重。這個學習階段會佔用時間和計算資源,但是一旦經過訓練,該晶片將迅速執行其任務。
神經網路可以採用不同演算法,作者在文中演示了兩種神經形態功能。第一種是分類:3 x 3畫素陣列可以將影象分類為三個簡化字母“n、v、z”對應的三個類別之一,從而以納秒為單位識別該字母。這樣的簡單陣列只是為了概念證明,如果按比例增加陣列的大小,則可以進一步擴充套件,識別更復雜的影象。
圖3:27個光電探測器的光響應值,其中訓練資料σ = 0.3。(a,b):其中(a)為初始時期(epoch)的響應度值,(b)時期為30時的響應度值,訓練資料σ = 0.2和σ= 0.4的權重相似。c:在特定的投影字母和三種噪聲水平下,所有時期測得的電流。d:三種不同噪聲水平的初始和最終響應度值的直方圖。
第二個功能是自動編碼:即使在存在訊號噪聲的情況下,感測器計算陣列也可以通過學習影象的關鍵特徵來生成處理後圖像的簡化表示。編碼版本僅包含最基本的資訊,但可以解碼以重建與原始影象最相似的影象。
這項有前途的技術在投入實際應用之前,還有許多工作要做。用於自動駕駛車輛和機器人技術的神經形態視覺系統需要捕獲視場角較大的3D動態影象和視訊。當前使用的影象捕獲技術通常將3D真實世界轉換為2D資訊,這樣就丟失了運動資訊和深度資訊。現有的平面圖像感測器陣列也限制了廣角相機的發展。
作者描述的器件很難在昏暗的光線下成像。需要重新設計以改善薄半導體的光吸收並增加探測光強範圍。此外,論文中提到的這種設計需要高電壓並消耗大量功耗。相比之下,生物神經網路中每項操作的能量消耗處於亞飛焦耳級(10⁻¹⁵至10⁻¹³焦耳)。這有利於擴充套件到紫外線和紅外光應用,以捕獲可見光譜無法提供的資訊。
所使用的薄半導體很難實現大面積地均勻生產,加工難度高,因此它們可以與矽電子器件整合在一起,例如用於讀出外部電路或反饋控制。使用這些感測器的裝置的速度和能效將不取決於影象捕獲過程,而是取決於感測器和外部電路之間的資料移動。儘管感測器計算單元在模擬域中收集和計算資料,減少了模數轉換,但外圍電路仍然遭受其它固有延遲的困擾。感測器和外部電路需要共同開發,以減少整個系統的等待時間。
Mennel及其同事的“在感測器中實現計算”系統會激發對人工智慧(AI)硬體的進一步研究。一些企業已經開發了基於矽電子的AI視覺晶片,但是這些晶片的固有數字架構無法解決延遲和功率效率問題。
更廣泛地講,作者的策略不僅限於視覺系統。它可以擴充套件到用於聽覺、觸覺、熱感或嗅覺的其它物理引數輸入。此類智慧系統的開發以及5G無線網路的到來,會在將來允許進行實時邊緣(低延遲)計算。
論文連結:https://www.nature.com/articles/s41586-020-2038-x