回覆列表
-
1 # 天店通小程式
-
2 # 北航秦曾昌
首先介紹一下什麼是模態。這裡模態指的就是文字、影象、聲音、影片等資訊的載體。跨模態資訊搜尋(又稱跨媒體搜尋)就是透過尋找不同模態之間的關係,實現利用某一種模態樣本,去檢索近似語義的其他模態樣本。
比如我們在百度的網頁搜尋中輸入關鍵字,然後返回相應的檢索結果,這就是同模態檢索,即以文搜文。而在圖片檢索頁面輸入關鍵字,返回的圖片結果則是跨模態檢索,即以文搜圖。
下圖就是圖文搜尋的過程示意,輸入要查詢的資訊圖片或文字,然後在資料庫中找到與之有相同語義的圖文,最後返回結果。
跨模態搜尋的難點在於如何比較不同模態之間資料的相似度。因為模態之間的資訊表達形式差別很大,因此首先需要將他們轉化為方便進行比較的表示。最常用的表示方式就是對資料提取特徵得到資料的特徵向量。而不同的文字所對應的向量空間仍有很大的差異。所以還需要進一步的將不同模態都對映到同一語義空間中來進行比較。
按照向量的表示不同,跨模態搜尋可以分為實值表示和二值表示。即向量是實數還是0-1。表示成0-1的好處在於能夠加快搜索比較的速度。
而依據學習的資料形式不同,跨模態搜尋還能夠劃分為一下四種
1)無監督學習,指的是對共現資訊的表示學習。共現資訊就是隻要不同模態的資料出現在一起,就可以認為他們是相關聯的。比如網頁中新聞的圖片和文字資訊等等。
2)成對的資料的學習,即不同模態的資料已經成對匹配好了。而在此基礎之上進行跨模態資訊的檢索。
3)基於排序的學習,關鍵在於如何設計出he
4)監督學習,利用已經人為標記好的標籤資訊來進行學習。不僅要學習出不同模態下相同語義的關係,同時也還要學習出不同模態的相同標籤之間資料的關係。
首先呢,與傳統的單模態搜尋不同,在跨模態搜尋中,搜尋結果的模態和查詢的模態是不同的。比如,使用者使用影象搜尋文字,影片和音訊。跨模態搜尋的關鍵在於對不同模態的關係進行建模,難點就是跨越語義鴻溝。然而,當要搜尋的文件包含多模態的時候,一般的跨模態方法就無法直接應用到多模態搜尋。
還有一種多模態搜尋,多模態搜尋方法可以處理帶有多個模態的多媒體資料,在多模態搜尋中,查詢和要搜尋的文件可能包含不止一個模態。多模態搜尋方法可以用來提高單模態搜尋的準確度。多模態和跨模態搜尋的主要區別在於: 在多模態搜尋中,查詢和要搜尋的文件必須至少有一個模態是相同的。多模態方法通常是融合不同的模態進行搜尋,而不是對他們的關係進行建模。比如,在許多多模態影象搜尋系統中,查詢影象可能都有相關的文字,要搜尋的影象也包含相關的文字資訊。而如果查詢和要搜尋的文件沒有相同的模態,那麼這就是跨模態要解決的問題,傳統的多模態方法就無能為力了。
主要的技術方向我知道的有以下幾點:雜湊學習、深度學習、協同訓練、核典型相關分析與神經網路