在將於今年六月舉辦的 CVPR 2018 會議上,中國科學院大學、英國鄧迪大學和中國科學院腦科學與智慧技術卓越創新中心的一篇 Oral 論文提出了一種使用鑑別性特徵學習零樣本識別的方法。和人工智慧領域的很多新研究成果一樣,該研究實現了當前最佳。
近年來,零樣本學習(ZSL:zero-shot learning)已經在目標識別任務中得到普及應用。傳統的目標識別方法是透過將影象標籤分配到訓練集中見過的一個類別來預測目標例項的存在,零樣本學習則與傳統方法不同,其目標是識別之前從未見過的新類別中的目標例項。因此,在 ZSL 任務中,在訓練集中見過的類別和測試集中沒見過的類別是不相交的。
通常而言,見過和沒見過的類別都要提供類別描述資訊(比如使用者定義的屬性標註、類別的文字描述、類別名的詞向量等);某些描述資訊是各個類別共有的。這些描述資訊通常被稱為輔助資訊或語義表徵。在本研究中,我們關注的是使用屬性的 ZSL 的學習。
如圖 1 所示,典型 ZSL 方法的一個通用假設是:存在一個共有的嵌入空間,其中有一個對映函式,定義這個函式的目的是對於見過或沒見過的類別,衡量影象特徵 φ(x) 和語義表徵 ψ(y) 之間的相容性(compatibility)。W 是所要學習的視覺-語義對映矩陣。現有的 ZSL 方法主要側重於引入線性或非線性的建模方法,使用各種目標和設計不同的特定正則化項來學習該視覺-語義對映,更具體而言就是為 ZSL 學習 W。
圖 1:經典 ZSL 方法的目標是尋找一個嵌入了影象特徵 φ(x) 和語義表徵 ψ(y) 的嵌入空間
到目前為止,對映矩陣 W 的學習(儘管對 ZSL 很重要)的主要推動力是視覺空間和語義空間之間對齊損失的最小化。但是,ZSL 的最終目標是分類未見過的類別。因此,視覺特徵 φ(x) 和語義表徵 ψ(y) 應該可以被區分開以識別不同的目標。不幸的是,這個問題在 ZSL 領域一直都被忽視了,幾乎所有方法都遵循著同一正規化:1)透過人工設計或使用預訓練的 CNN 模型來提取影象特徵;2)使用人類設計的屬性作為語義表徵。這種正規化存在一些缺陷。
第一,影象特徵 φ(x) 要麼是人工設計的,要麼就是來自預訓練的 CNN 模型,所以對零樣本識別任務而言可能不具有足夠的表徵能力。儘管來自預訓練 CNN 模型的特徵是學習到的,然而卻受限於一個固定的影象集(比如 ImageNet),這對於特定 ZSL 任務而言並不是最優的。
第二,使用者定義的屬性 ψ(y) 是語義描述型的,但卻並不詳盡,因此限制了其在分類上的鑑別作用。也許在 ZSL 資料集中存在一些預定義屬性沒有反映出來的鑑別性的視覺線索,比如河馬的大嘴巴。另一方面,如圖 1 所示,「大」、「強壯」和「大地」等被標註的屬性是很多目標類別都共有的。這是不同類別之間的知識遷移所需的,尤其是從見過的類別遷移到沒見過的類別時。但是,如果兩個類別(比如豹和虎)之間共有的(使用者定義的)屬性太多,它們在屬性向量空間中將難以區分。
第三,現有 ZSL 方法中的低層面特徵提取和嵌入空間構建是分開處理的,並且通常是獨立進行的。因此,現有研究中很少在統一框架中考慮這兩個組分。
為了解決這些缺陷,我們提出了一種端到端的模型,可以同時在視覺空間和語義空間中學習用於 ZSL 的隱含的鑑別性特徵(LDF)。具體而言,我們的貢獻包括:
一種級聯式縮放機制,可用於學習以目標為中心的區域的特徵。我們的模型可以自動識別影象中最具鑑別性的區域,然後在一個級聯式的網路結構中將其放大以便學習。透過這種方式,我們的模型可以專注於從以目標為焦點的區域中學習特徵。
一種用於聯合學習隱含屬性和使用者定義的屬性的框架。我們將隱含屬性的學習問題形式化為了一個類別排序問題,以確保所學習到的屬性是鑑別性的。同時,在我們模型中,鑑別性區域的發掘和隱含屬性的建模是聯合學習的,這兩者會互相協助以實現進一步的提升。
一種用於 ZSL 的端到端網路結構。所獲得的影象特徵可以調整得與語義空間更加相容,該空間中既包含使用者定義的屬性,也包含隱含的鑑別性屬性。
我們的方法
我們提出的方法的框架如圖 2 所示。注意,原則上該框架包含多個影象尺度,但為描述清楚,這裡僅給出了有 2 個影象尺度的情況作為示例。在每個影象尺度中,網路都由三個不同組分構成:1)影象特徵網路(FNet),用於提取影象表徵;2)縮放網路(ZNet),用於定位最具鑑別性的區域,然後將其放大;3)嵌入網路(ENet),用於構建視覺資訊和語義資訊關聯在一起的嵌入空間。對於第一個尺度,FNet 的輸入是原始尺寸的影象,ZNet 負責生成放大後的區域。然後到第二個尺度,放大後的影象區域成為 FNet 的輸入,以獲得更具鑑別性的影象特徵。
圖 2:我們提出的隱含鑑別性特徵(LDF)學習模型的框架。從粗略到精細到影象表徵被同時投射到使用者定義的屬性和隱含屬性中。使用者定義的屬性通常是不同類別共有的,而隱含屬性是為區分而透過調整類別間或類別中的距離而學習到的。
實驗
我們提出的 LDF 模型在兩個有代表性的 ZSL 基準上進行了評估,即:Animals with Attributes(AwA)和 Caltech-UCSD Birds 200-2011(CUB)。
表 1:使用 VGG19 和 GoogLeNet(括號中的數字)的深度特徵在兩個資料集上的 ZSL 結果(MCA,%)
表 2:在每個影象尺度上的詳細 ZSL 結果(%)
表 3:只使用 UA 特徵或 LA 特徵所得到的 ZSL 結果(%)
表 4:對於 ZNet 和 ENet,聯合訓練和分開訓練之間的結果比較
論文:用於零樣本識別的隱含特徵鑑別式學習(Discriminative Learning of Latent Features for Zero-Shot Recognition)
論文地址:https://arxiv.org/abs/1803.06731
摘要:零樣本學習(ZSL)的目標是透過學習影象表徵和語義表徵之間的嵌入空間來識別未曾見過的影象類別。多年以來,在已有的研究成果中,這都是學習對齊視覺空間和語義空間的合適對映矩陣的中心任務,而學習用於 ZSL 的鑑別性表徵的重要性卻被忽視了。在本研究中,我們回顧了已有的方法,並表明了為 ZSL 的視覺和語義例項學習鑑別性表徵的必要性。我們提出了一種端到端的網路,能夠做到:1)透過一個縮放網路自動發現鑑別性區域;2)在一個為使用者定義屬性和隱含屬性引入的擴增空間中學習鑑別性語義表徵。我們提出的方法在兩個有挑戰性的 ZSL 資料集上進行了大量測試,實驗結果表明我們提出的方法的表現顯著優於之前最佳的方法。
在將於今年六月舉辦的 CVPR 2018 會議上,中國科學院大學、英國鄧迪大學和中國科學院腦科學與智慧技術卓越創新中心的一篇 Oral 論文提出了一種使用鑑別性特徵學習零樣本識別的方法。和人工智慧領域的很多新研究成果一樣,該研究實現了當前最佳。
近年來,零樣本學習(ZSL:zero-shot learning)已經在目標識別任務中得到普及應用。傳統的目標識別方法是透過將影象標籤分配到訓練集中見過的一個類別來預測目標例項的存在,零樣本學習則與傳統方法不同,其目標是識別之前從未見過的新類別中的目標例項。因此,在 ZSL 任務中,在訓練集中見過的類別和測試集中沒見過的類別是不相交的。
通常而言,見過和沒見過的類別都要提供類別描述資訊(比如使用者定義的屬性標註、類別的文字描述、類別名的詞向量等);某些描述資訊是各個類別共有的。這些描述資訊通常被稱為輔助資訊或語義表徵。在本研究中,我們關注的是使用屬性的 ZSL 的學習。
如圖 1 所示,典型 ZSL 方法的一個通用假設是:存在一個共有的嵌入空間,其中有一個對映函式,定義這個函式的目的是對於見過或沒見過的類別,衡量影象特徵 φ(x) 和語義表徵 ψ(y) 之間的相容性(compatibility)。W 是所要學習的視覺-語義對映矩陣。現有的 ZSL 方法主要側重於引入線性或非線性的建模方法,使用各種目標和設計不同的特定正則化項來學習該視覺-語義對映,更具體而言就是為 ZSL 學習 W。
圖 1:經典 ZSL 方法的目標是尋找一個嵌入了影象特徵 φ(x) 和語義表徵 ψ(y) 的嵌入空間
到目前為止,對映矩陣 W 的學習(儘管對 ZSL 很重要)的主要推動力是視覺空間和語義空間之間對齊損失的最小化。但是,ZSL 的最終目標是分類未見過的類別。因此,視覺特徵 φ(x) 和語義表徵 ψ(y) 應該可以被區分開以識別不同的目標。不幸的是,這個問題在 ZSL 領域一直都被忽視了,幾乎所有方法都遵循著同一正規化:1)透過人工設計或使用預訓練的 CNN 模型來提取影象特徵;2)使用人類設計的屬性作為語義表徵。這種正規化存在一些缺陷。
第一,影象特徵 φ(x) 要麼是人工設計的,要麼就是來自預訓練的 CNN 模型,所以對零樣本識別任務而言可能不具有足夠的表徵能力。儘管來自預訓練 CNN 模型的特徵是學習到的,然而卻受限於一個固定的影象集(比如 ImageNet),這對於特定 ZSL 任務而言並不是最優的。
第二,使用者定義的屬性 ψ(y) 是語義描述型的,但卻並不詳盡,因此限制了其在分類上的鑑別作用。也許在 ZSL 資料集中存在一些預定義屬性沒有反映出來的鑑別性的視覺線索,比如河馬的大嘴巴。另一方面,如圖 1 所示,「大」、「強壯」和「大地」等被標註的屬性是很多目標類別都共有的。這是不同類別之間的知識遷移所需的,尤其是從見過的類別遷移到沒見過的類別時。但是,如果兩個類別(比如豹和虎)之間共有的(使用者定義的)屬性太多,它們在屬性向量空間中將難以區分。
第三,現有 ZSL 方法中的低層面特徵提取和嵌入空間構建是分開處理的,並且通常是獨立進行的。因此,現有研究中很少在統一框架中考慮這兩個組分。
為了解決這些缺陷,我們提出了一種端到端的模型,可以同時在視覺空間和語義空間中學習用於 ZSL 的隱含的鑑別性特徵(LDF)。具體而言,我們的貢獻包括:
一種級聯式縮放機制,可用於學習以目標為中心的區域的特徵。我們的模型可以自動識別影象中最具鑑別性的區域,然後在一個級聯式的網路結構中將其放大以便學習。透過這種方式,我們的模型可以專注於從以目標為焦點的區域中學習特徵。
一種用於聯合學習隱含屬性和使用者定義的屬性的框架。我們將隱含屬性的學習問題形式化為了一個類別排序問題,以確保所學習到的屬性是鑑別性的。同時,在我們模型中,鑑別性區域的發掘和隱含屬性的建模是聯合學習的,這兩者會互相協助以實現進一步的提升。
一種用於 ZSL 的端到端網路結構。所獲得的影象特徵可以調整得與語義空間更加相容,該空間中既包含使用者定義的屬性,也包含隱含的鑑別性屬性。
我們的方法
我們提出的方法的框架如圖 2 所示。注意,原則上該框架包含多個影象尺度,但為描述清楚,這裡僅給出了有 2 個影象尺度的情況作為示例。在每個影象尺度中,網路都由三個不同組分構成:1)影象特徵網路(FNet),用於提取影象表徵;2)縮放網路(ZNet),用於定位最具鑑別性的區域,然後將其放大;3)嵌入網路(ENet),用於構建視覺資訊和語義資訊關聯在一起的嵌入空間。對於第一個尺度,FNet 的輸入是原始尺寸的影象,ZNet 負責生成放大後的區域。然後到第二個尺度,放大後的影象區域成為 FNet 的輸入,以獲得更具鑑別性的影象特徵。
圖 2:我們提出的隱含鑑別性特徵(LDF)學習模型的框架。從粗略到精細到影象表徵被同時投射到使用者定義的屬性和隱含屬性中。使用者定義的屬性通常是不同類別共有的,而隱含屬性是為區分而透過調整類別間或類別中的距離而學習到的。
實驗
我們提出的 LDF 模型在兩個有代表性的 ZSL 基準上進行了評估,即:Animals with Attributes(AwA)和 Caltech-UCSD Birds 200-2011(CUB)。
表 1:使用 VGG19 和 GoogLeNet(括號中的數字)的深度特徵在兩個資料集上的 ZSL 結果(MCA,%)
表 2:在每個影象尺度上的詳細 ZSL 結果(%)
表 3:只使用 UA 特徵或 LA 特徵所得到的 ZSL 結果(%)
表 4:對於 ZNet 和 ENet,聯合訓練和分開訓練之間的結果比較
論文:用於零樣本識別的隱含特徵鑑別式學習(Discriminative Learning of Latent Features for Zero-Shot Recognition)
論文地址:https://arxiv.org/abs/1803.06731
摘要:零樣本學習(ZSL)的目標是透過學習影象表徵和語義表徵之間的嵌入空間來識別未曾見過的影象類別。多年以來,在已有的研究成果中,這都是學習對齊視覺空間和語義空間的合適對映矩陣的中心任務,而學習用於 ZSL 的鑑別性表徵的重要性卻被忽視了。在本研究中,我們回顧了已有的方法,並表明了為 ZSL 的視覺和語義例項學習鑑別性表徵的必要性。我們提出了一種端到端的網路,能夠做到:1)透過一個縮放網路自動發現鑑別性區域;2)在一個為使用者定義屬性和隱含屬性引入的擴增空間中學習鑑別性語義表徵。我們提出的方法在兩個有挑戰性的 ZSL 資料集上進行了大量測試,實驗結果表明我們提出的方法的表現顯著優於之前最佳的方法。