回覆列表
  • 1 # 不正經的李博士

    博士解答:

    一、多模態概念    所謂“模態”,英文是modality,用通俗的話說,就是“感官”,多模態即將多種感官融合。    目前的人機智慧互動比如語言控制不如螢幕控制那麼精準,很多時候會誤判指令和錯誤喚醒,比較語言充滿了不確定性;再比如,語音互動的物聯網裝置還是缺乏主動服務的能力,只是換了操作方式而已,使用者體驗沒有本質提升。    假如我們把“模態”通俗地理解為感官,那麼智慧音箱就是隻具備聽覺模態的物聯網裝置,而載入AI分析能力的攝像頭可以視為視覺模態的物聯網裝置。把聽覺、視覺甚至更多模態組合到一起,多模態物聯網也就誕生了。    目前的AI裝置中感知模態主要有三種:        1.語音互動,包括語音指令控制、語義理解、多輪對話、NLP、語音精準識別等領域;        2. 機器視覺,包括自然物體識別、人臉識別、肢體動作識別等;        3. 感測器智慧,包括AI對熱量、紅外捕捉訊號、空間訊號的閱讀與理解。    把這三種東西融合在一起,物聯網裝置就可以在單純的能聽會說之外,同時還用攝像頭觀察、用感測器判斷。而比較前沿的多模態感知還包括機器嗅覺,機器觸覺和情緒理解等內容,但目前還沒有落地產品。

    二、多模態應用    目前多模態互動的主要應用場景:    場景一:多模態AI互動技術投射在物聯網裝置上,大概就是用機器視覺技術進行嘴唇識別,來分離語音互動指令。嘗試透過用機器視覺來讀取說話人的唇語和動作,來判斷每個聲音指令的來源。     場景二:多模態空調。在一些新的智慧空調解決方案中,空調會在語音互動的基礎上透過機器視覺來判斷使用者的位置,提供智慧送冷,並且會結合感測器判斷屋內溫度和溼度,提供更精準的環境方案。     場景三:多模態電視。今年電視背後的AI平臺戰打得風生水起,把機器視覺技術引入電視成為了新的趨勢。透過機器視覺來讓電視觀察屋內照明情況、使用者與電視的距離,電視可以主動調節螢幕光線強度,輸出比較護眼的模式。還有的AI應用是讓電視在觀察到兒童看電視後主動開啟童鎖。

    三、多模態互動解決方案    目前來看,無論是家電還是工業裝置,實現多模態混合的主要方式還是把不同的感測源輸入到裝置處理中心,啟動一定程式來開啟相應服務。換句話說,AI模型本身是沒法理解多模態訊號的,只是不同的演算法啟動不同的開關而已。這種“偽AI多模態”的裝置也不是不行,只是在實時化和複雜的推理判斷上會有心無力。    解決方案可能是一種叫做“多模態深度學習”的技術,讓AI智慧體本身能夠理解多模態訊號,從演算法本身就容納聽覺、視覺、感測訊號進行統一思考。這樣可以保證裝置高度實時化,並且可以讓裝置進行多模態協同學習,真正地“聰明”起來。

    四、多模態互動產品    物靈科技 ---- Luka Hero ,Luka Baby機器人(早教機),繪本(定製)閱讀    阿里巴巴 ----AliOS智慧車載互動系統:,AliOS對外宣佈了人臉識別技術,可以針對不同的駕駛者進行差異化的智慧化場景服務。AliOS透過車內攝像頭對駕駛員進行面部識別,從而提供播放個人歌單、常用路徑、座椅及後視鏡角度自適應等個性化服務。

    五、總結    目前來說,還沒有真正意義上的多模態落地產品,多數產品只是打著多模態的旗號進行宣傳,實際工作時,各模態之間還是獨立運作,即雖然這些產品都有眼、有耳,但眼只做影象處理,耳只做語音識別,執行時並沒有進行交差計算。

  • 2 # 青山打卡許可馨

    多模態人機互動指的是透過自然通訊模式與虛擬和物理環境相互作用,這意味著多模態互動能夠實現更自由和自然的通訊,將使用者與輸入和輸出中的自動化系統連線起來。

    具體而言,多模態系統可以提供靈活、高效並且可用的一個環境,允許使用者透過語音、筆跡、手勢和注視等輸入模式進行互動,並透過輸出模態來接收系統的資訊,例如語音合成、智慧圖形和其他模式巧妙結合。然後,多模態系統必須根據時間和上下文約束將不同模態的輸入結合起來,以便對其進行解釋,這個過程被稱為多模態融合,多模態融合是從九十年代到現在的幾項研究工作的目標,透過系統解釋熔合輸入。自然和靈活性可以為每種不同的形式(渠道)及其同時使用產生一種以上的解釋,因此它們通常會由於不精確性、噪音或其他類似因素而產生多模態歧義。為了解決模糊性,已經提出了幾種方法。最後,系統透過根據一致反饋(分裂)排列的各種模式通道(分解)返回使用者輸出。移動裝置,感測器和網路技術的普遍使用可以提供足夠的計算資源來管理多模式互動所隱含的複雜性。 “使用雲來管理共享計算資源來管理多模式互動的複雜性是一個機會,事實上,雲計算允許交付共享的可擴充套件,可配置的計算資源,這些資源可以動態地自動配置和釋出”。

  • 3 # 使用者1496429181195

    情感計算是為了賦予計算機識別、理解、表達和適應人類情感的能力,以此實現高效、親切的人機互動。人類情感有著表情、語音、生理訊號等多種載體,進行多模態情感識別研究可以促進情感計算的發展,而多模態情感識別研究需要多模態情感資料庫的支援。當前的情感資料庫多是單模態的,雖有少量的多模態資料庫但是還存在著一些不足的地方。因此設計並建立一個包含平靜、高興、驚奇、厭惡、傷心、生氣、害怕7種情感的多模態情感資料庫具有重要的理論意義。<br>   本文首先設計了同步採集表情圖片、語音、前額腦電訊號三種模態資料的採集方案,篩選影視素材並製作了情感...

  • 中秋節和大豐收的關聯?
  • 老年人半夜大腿抽筋怎麼辦?