首頁>技術>

半監督學習,無監督學習,遷移學習,表徵學習以及小樣本學習Big Transfer (BiT): General Visual Representation Learning (paper)

(https://arxiv.org/abs/1912.11370)

在本文中,作者重新審視了遷移學習的簡單正規化:首先在一個大規模標記資料集(例如JFT-300M和ImageNet-21k資料集)上進行預訓練,然後對目標任務上的每個訓練權重進行精調任務,減少目標任務所需的資料量和最佳化時間。作者們擬議的遷移學習框架是BiT(大轉移),由許多元件組成,包含了大量構建有效模型的必需元件,使其能夠藉助於大規模資料集學習到通用的、可遷移的特徵表達。

在(上游)預訓練方面,BiT包括以下內容:

對於非常大的資料集,由於Batch Normalization(BN)在測試結果期間使用訓練資料中的統計資訊會導致訓練/測試差異,在這種情況下,訓練損失可以正確最佳化和回傳,但是驗證損失非常不穩定。除了BN對批次大小的敏感性外。為了解決這個問題,BiT既使用了Group Norm,又使用了Weight Norm,而不是Batch Norm。諸如ResNet 50之類的小型模型無法從大規模資料集中受益,因此模型的大小也需要相應地擴大規模,和資料集匹配。

對於(下游)目標任務,BiT建議以下內容:

使用標準SGD最佳化器,無需層凍結,dropout,L2正規化或任何適應梯度。別忘了把最後的預測層的權重初始化為0。不用將所有輸入縮放為固定大小,例如224。在訓練過程中,輸入影象會隨機調整大小並裁剪為具有隨機選擇大小的正方形,並隨機水平翻轉。在測試階段,影象會被縮放為固定大小,儘管對於資料量充足的大規模資料集預訓練來說,mixup 並沒有多大用處,但BiT發現misup正則化對於用於下游任務的中型資料集訓練非常有用。Learning Visual Representations with Caption Annotations

(https://arxiv.org/abs/2008.01392)

在大規模標註的資料集上訓練深度模型不僅可以使手頭的任務表現良好,還可以使模型學習對於下游任務的有用特徵形式。但是,我們是否可以在不使用如此昂貴且細粒度的標註資料的情況下獲得類似的特徵表達能力呢?本文研究了使用噪聲標註(在這種情況下為影象標題)的弱監督預訓練。

目標是用有限對影象與說明文字來學習視覺表達,那麼,如何制定訓練目標以推動影象及其標題之間的有效互動?基於BER模型隨機掩蓋15% 的輸入字元,讓模型根據 transformer 模型的編碼器輸出重建整個句子,該方法也隨機對影象的文字說明進行掩碼操作。論文提出了影象條件化的掩蔽語言建模(ICMLM),其中利用影象資訊來重構其相應說明文字的掩碼的字元。為了解決這個問題,作者提出了兩種多模架構:(1)ICMLM tfm,使用一個卷積神經網路對原始影象進行編碼得到影象特徵,接著,經過BERT處理的被掩碼的影象說明、原始影象說明以及影象特徵被級聯起來並透過一個 transformer 編碼器,最終輸出一個多模嵌入特徵用於預估被掩碼的字元。(2)首先生成ICMLM att + fc,說明和影象之間的相似度,接著經過一個成對注意力模組來整合影象與文字說明之間的資訊。得到的特徵會經過池化後再過一個全連線層來預測被掩碼的字元。

Memory-augmented Dense Predictive Coding for Video Representation Learning

(https://arxiv.org/abs/2008.01065)

近期在自監督影象表徵學習領域的進步在下游任務中展現出了令人印象深刻的效果。儘管影片的多模表徵學習多有發展,然而不使用其他任何類似於文字與語音的模態資訊,但使用影片流進行自監督學習還未有所發展。即使影片的時域資訊為自監督地訓練一個根據過去幀預測未來幀的模型提供了充足的監督訊號。由於確切的未來並不存在,並且在給定的時間步長內,對於未來狀態有許多可能和合理的假設(例如,當動作是“打高爾夫球”時,那麼下一幀可能是手或者高爾夫俱樂部)。

本文將對比學習與儲存模組結合使用,以解決未來幀的預測問題。為了減少不確定性,該模型會在特徵級別上預測未來,並使用對比損失進行訓練以避免過度約束。為了處理多種假設,一個儲存模組用於同時推斷多個未來狀態。給定一組連續幀,2d-3d CNN編碼器(即ff)產生上下文特徵,而GRU(即g)整合所有過去的資訊,然後將其用於從共享儲存模組中選擇插槽。然後,將預測的未來狀態作為所選儲存插槽的凸組合生成。然後,使用對比損失將預測的未來狀態與未來狀態的真實特徵向量進行比較。對於下游任務,將g產生的特徵彙總起來,然後提供給分類器處理。

SCAN: Learning to Classify Images without Labels

(https://arxiv.org/abs/2005.12320)

要將未標記的輸入影象分組為語義上有意義的聚類,我們需要僅使用視覺相似性來找到解決方案。先前的工作之一是(1)使用自我監督的方法學習豐富的特徵,然後對特徵應用k均值以找到聚類,但這很容易導致效能退化。(2)端到端群集方法,這些方法可以利用CNN的功能進行深度聚類,也可以基於互資訊最大化。但是,生成的聚類結果在很大程度上取決於初始化,並且很可能會陷入低階特徵主導中。

為了解決先前工作中發現的問題,本文提出了採用兩步過程的SCAN(採用最鄰方法的語義聚類)。第一步,透過前置任務學習特徵表示,然後生成將語義上有意義的最近鄰用作先驗,以訓練模型將每個影象及其對應的鄰居分為一類。模型透過損失函式來最佳化,該函式會在 softmax 之後最大化輸出向量的點積,從而迫使網路產生一致且有判別度的(one-hot 向量)預測。

GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering

(https://arxiv.org/abs/2002.11863)

聚類包括根據樣本相似性將資料分為多個聚類。傳統的方法是使用手工特徵和特定於領域的距離函式來衡量相似度,但是這種手工製作的特徵在表達能力上非常有限。隨後的工作將深度表示和聚類演算法結合起來,但是當輸入資料很複雜時,深度聚類的效能還是會受到影響。有效的聚類在特徵層面必須同時包含高層判別性特徵並獲取物件語義資訊。在聚類步驟上,必須避免使用將樣本分配到單個或少數幾個叢集的演算法,並且聚類需要高效地應用於大尺寸影象。

本文提出了GATCluster,它直接輸出語義聚類標籤而無需進一步的後處理,其中學習到的特徵是一個 one-hot 編碼向量,以避免弱解。GATCluster在平移不變性、可分離性最大化、熵分析和注意力對映約束下,透過四個自學習任務以無監督的方式進行了訓練。

Associative Alignment for Few-shot Image Classification

(https://arxiv.org/abs/1912.05094)

小樣本影象分類的目標是在訓練樣本很少的情況下,生成一個能夠學習識別新的影象類的模型。現在流行的方法之一是元學習,它從大量包含基類的標記資料中提取公共知識,並用於訓練模型。然後訓練該模型以僅用幾個樣本就可以對來自新穎概念的影象進行分類。元目標是找到一組良好的初始權重集合,這些初始權重在接受新概念訓練時會迅速收斂。有趣的是,最近的研究表明,不使用元學習的標準轉移學習,其中特徵提取器首先在基類上進行了預訓練,然後根據新的幾個類別上在預訓練的提取器之上對分類器進行了微調。,其效能和更復雜的元學習策略不相上下。但是為了避免過擬合,特徵提取器對部分層的權重凍結會阻礙效能。

本文提出了一種兩步法來解決這個問題。首先,特徵提取器用於為新樣本生成特徵。然後,使用嵌入空間中的相似性度量將每個樣本的特徵對映到基類之一。第二步包括關聯對齊,其中對特徵提取器進行微調,以便將新影象的嵌入向量更靠近其相應基礎影象的嵌入。這可以透過以下方法完成:在每個基類的中心與新類比之間的距離減小的質心對齊方式,也可以使用對抗性對齊,其中鑑別器迫使特徵提取器在嵌入空間中對齊基礎影象和新樣本。

三維計算機視覺以及機器人學NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

(https://arxiv.org/abs/2003.08934)

從2D影象合成3D檢視是一個具有挑戰性的問題,尤其是在稀疏地取樣了輸入2D影象的情況下。改目標的任務是是訓練一個模型,該模型拍攝3D場景的2D影象集合(具有可選的相機姿勢及其內參),然後,使用訓練後的模型,我們可以渲染3D場景中未找到的新2D檢視。種成功的方法是基於體素的表示法,該表示方法使用離散的網格表示3D場景。使用3D CNN可以預測3D體素中對應的RGB-alpha網格值。是,由於這種基於體素的方法複雜度與空間解析度成三次比,難以最佳化並且無法平滑地對場景表面進行引數化,因此它們的儲存效率不高。計算機視覺社群的最新趨勢是使用全連線的神經網路將給定的3D場景表示為連續函式。因此,神經網路本身就是3D場景的壓縮表示,使用2D影象集進行訓練,然後用於渲染新的檢視。但是,現有方法仍無法匹配現有基於voxed的方法。

NeRF(神經輻射場)使用9個層和256個通道的全連線網路將場景表示為連續5D函式,其輸入是單個連續5D函式,即3D空間位置(xx,yy,zz)和視角方向(θθ,ϕϕ),其輸出為RGB顏色和不透明度(輸出密度)。為了合成給定的檢視,渲染過程包括沿攝像機光心所在的直線查詢5D座標,並使用經典的體素渲染技術將輸出的顏色和密度投影到影象中。由於體素渲染是可以區分的,因此最佳化表示所需的唯一輸入就是具有已知攝影機姿勢引數的一組影象。這樣,NeRF能夠有效地最佳化神經輻射場,以渲染具有複雜幾何形狀和外觀的場景的逼真檢視,並且在渲染的影象和真實影象之間具有簡單的重建損失,並證明其結果優於先前的神經渲染和檢視工作合成研究。

Towards Streaming Perception

(https://arxiv.org/abs/2005.10420)

諸如自動駕駛汽車之類的實際應用需要類似於人類的快速反應時間,通常為200毫秒。在這種情況下,需要使用低延遲演算法來確保安全執行。但是,即使經常研究計算機視覺演算法的延遲,也僅主要在離線環境中進行了研究。線上視覺感知會帶來完全不同的延遲需求。因為到了演算法完成處理特定影象幀的時間(例如200毫秒後),周圍的世界就發生了變化,如下圖所示。這迫使感知最終預測了未來,這是人類視覺的基本屬性(例如,當棒球運動員擊中快球時,這是必需的)。

為了開發更好的基準以反映現實情況,並使現有方法的比較更加容易。本文介紹了流感知的目標,即實時線上感知,並提出了一種新的元基準,該基準將系統地將任何影象理解任務系統地轉換為流影象理解任務。該基準基於基於以下 的幾點提出了:流感知需要在任何時刻都瞭解世界的狀態。因此,當新幀到達時,流演算法必須報告世界的狀態,即使它們尚未處理前一幀,也迫使它們考慮在進行計算時應忽略的流資料量。具體來說,當比較模型的輸出和真實標籤時,對齊是使用時間而不是輸入索引來完成的,因此在處理相應的輸入之前,模型需要對時間步t給出正確的預測,即驗證模型需要Δt來處理輸入並處理,它只能使用t-Δt之前的資料來預測在時間t對應於輸入的輸出。

Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images

(https://arxiv.org/abs/2004.14487)

人類能夠在小時候就開始形成一種心理模型,該模型以對物體的感知和對應的觸覺來對映,這是基於與不同物品互動時的先前經驗。當與新物件進行互動時,尤其是當簡單的物件類別無法提供足夠的資訊以準確估計觸覺物理特性時,讓具有這種心理模型的自主智慧體成為非常有價值的工具。

為了更直接地模擬這種心理模型,本文提出直接估計物理特性,從而允許直接利用物件的屬性。首先,作者提出了包含400多個表面影象序列和觸覺特性測量值的資料集。因為當估計表面特性時,人們經常不自覺地移動他們的頭部,獲取表面的多個檢視,所以所捕獲的影象序列包括每個材料表面的多個視角。然後,他們提出了一種跨模式框架,用於學習視覺提示到觸覺特性的複雜對映。該模型的訓練目標是在給定視覺資訊的情況下生成精確的觸覺特性估計。視覺和觸覺資訊都透過單獨的編碼器網路嵌入到共享的潛在空間中。然後,生成器函式根據嵌入的視覺向量估算觸覺屬性值。鑑別器網路學習預測觸覺-視覺對是真實的還是合成的例子。在推斷期間,如果輸入影象,則使用編碼器-生成器對來推斷觸覺屬性。

Convolutional Occupancy Networks

(https://arxiv.org/abs/2003.04618)

三維重建是計算機視覺中的一個重要問題,有著廣泛的應用。對於三維幾何圖形的理想表示,我們需要能夠達到以下幾點:a)編碼複雜的幾何圖形和任意拓撲結構,b)縮放到大型場景,c)封裝區域性和全域性資訊,以及d)在記憶體和計算方面易於處理。然而,現有的三維重建表示方法並不能滿足所有這些要求。雖然最近的隱式神經表示在三維重建中表現出了令人印象深刻的效能,但是由於使用了一種簡單的全連線的網路結構,這種結構不允許在觀測值中整合區域性資訊,也不允許包含諸如平移等變的歸納偏差,因此它們有著一些侷限性。

Convolutional Occupancy Networks卷積佔用網路使用卷積編碼器和隱式佔用解碼器結合來歸納偏差,並實現三維空間的結構化推理。從而得到單個物件進行隱式三維重建,具有擴充套件到大型室內場景的能力,並能很好地從合成數據推廣到真實資料。

影象和影片合成Transforming and Projecting Images into Class-conditional Generative Networks

(https://arxiv.org/abs/2005.01703)

GaNs能夠從不同的類別中生成不同的影象。例如,BigGaN,一個類體哦阿健生成對抗網路GaN,給定一個噪聲向量z和一個類嵌入向量c,該模型能夠生成對應類的新的影象。然後,就可以透過編輯噪聲向量的隱變數和類別嵌入向量來操縱影象。但反過來可能嗎?例如,給定一幅輸入影象,我們能找到與該影象最匹配的潛變數z和嵌入類向量c嗎?這個問題仍然具有挑戰性,因為許多輸入影象不能由GaN生成。另外,由於目標函式具有多個區域性極小值,搜尋演算法容易陷入此類區域性極小值區域。

為了解決這些問題,本文提出了兩種新的思路:估計輸入影象的尺度變換,以及使用非區域性搜尋演算法來尋找更好的解。如上所示,給定輸入影象,pix2potent首先找到最佳仿射變換,使得變換後的輸入可能由GaN生成,然後使用所提出的basicma最佳化方法將影象投影到隱空間中。然後對獲得的隱變數進行編輯,將其投影回影象空間,獲得編輯後的影象,然後可以使用初始仿射變換的逆運算對其進行變換並得到影象。

Contrastive Learning for Unpaired Image-to-Image Translation

(https://arxiv.org/abs/2007.15651)

給定兩組不同屬性和模式的影象對訓練集,例如馬和斑馬的影象組合,非配對影象到影象的轉換的目的是學習兩種模影象式之間的變化函式,例如將馬轉換為斑馬,反之亦然,同時保留諸如姿勢或大小等敏感資訊,而不必確保兩種模式之間的一對一匹配集。現有的方法,如CycleGaN迫使模型能夠將轉換後的影象變換回原始影象。但是這樣的方法假設一個雙射變換,這通有太多限制,因為一個給定的變換後的影象可能有許多似是而非的源影象。一個理想的損失應該是在不同的樣式下仍然保持不變的,不同的風格,但區分敏感資訊。

Contrastive Unpaired Translation(CUT)旨在學習這樣一個嵌入空間。除了標準的GAN損失外,生成器被訓練生成夠真實的翻譯影象,而鑑別器試圖區分轉換影象和真實影象。還要增加一個額外的損失,用來迫使網路對輸入影象與轉換影象的對應影象塊生成相似的嵌入向量。該損失在最佳化時採用對比損失,即拉近兩個對應影象塊的嵌入向量的距離,同時拉遠給定影象塊和隨機抽樣影象塊嵌入之間的距離(只使用同一輸入影象的內部區塊,其他影象的區塊會降低效能)。

Rewriting a Deep Generative Model

(https://arxiv.org/abs/2007.15646)

GAN 能夠對資料分佈中豐富的語義和物理規則進行建模,但是到目前為止,這些規則是如何在網路中編碼的,或者一個規則是如何被改變的我們還不是十分清楚。本文介紹了一種新的問題:操作由深度生成網路模型編碼的特定規則。因此,給定一個生成模型,目標是調整其權重,使新的和修改後的模型遵循新的規則,並生成遵循新規則集的影象,如下所示。

透過將網路的每一層視為一個關聯儲存器,將潛在生成規則儲存為隱藏特徵上的一組鍵值關係。可以透過定義約束最佳化來編輯和修改模型,約束最佳化在關聯性儲存器中新增或編輯一個特定規則,同時儘可能保留模型中現有的語義關係。論文直接透過度量和操縱模型的內部結構來實現這一點,而不需要任何新的訓練資料。

Learning Stereo from Single Images

(https://arxiv.org/abs/2008.01484)

給定一對對應的影象,視差匹配的目標是估計從第一檢視到第二檢視的每個畫素的對應位置之間的每畫素水平位移(即視差),反之亦然。雖然全監督的方法可以給出很好的結果,但一對視察影象之間精確的真實視差往往很難獲得。一種可能的替代方法是對合成資料進行訓練,然後對有限數量的實際標記資料進行微調。但是,如果沒有一個帶有足夠標籤的微調步驟,這樣的模型就不能很好地生成真實的影象。

該文提出了一種新的、全自動的視差估計訓練流程,透過使用影象深度估計網路,該方法可以由已知深度資訊的非結構化單幅影象生成視差估計訓練資料,這樣就無需人工合成數據或真實視差影象對即可進行訓練。。首先,透過使用深度視差的前向形變操作將給定的左輸入影象轉換為合成的右影象。然後,利用視差影象對,以有監督的方式對視差估計網路進行訓練,得到一個泛化的模型。

What makes fake images detectable? Understanding properties that generalize

(https://arxiv.org/abs/2008.10588)

雖然GaN生成影象的質量已經達到了令人印象深刻的水平,但是經過訓練的深度網路仍然可以檢測到生成影象中的細微偽影,並且這種訓練的網路還可以在不同資料集和不同方法上訓練的多個模型中發現相同的偽影。本文旨在視覺化和理解哪些工件在模型之間是共享的,並且容易在不同的場景中檢測和轉移。

由於全局面部結構在不同的生成器和資料集之間可能有所不同,因此生成的影象的區域性面片更加確定,並且可能產生冗餘的偽影。為此,本文采用了一種基於區塊的全卷積分類器來關注區域性區塊而不是全域性結構。然後可以使用路徑級分類器來視覺化和分類在各種測試資料集中最能指示真實或虛假影象的區塊。另外,可以對生成的影象進行操作以誇大假影象的特徵屬性。

視覺和語言Connecting Vision and Language with Localized Narratives

(https://arxiv.org/abs/1912.03098)

連線視覺和語言的一種流行方式是影象標題,其中每個影象都與人類編寫的文字標題配對,但這種連結僅在完整的影象尺度範圍內,其中的文字描述了整個影象。為了改進這種若的關聯,有人嘗試著將圖片標題的特定部分和影象中的目標框聯絡起來。但是,這種關聯仍然非常稀疏,大多數物件和單詞都沒有對應的目標框,且註釋過程可能會非常昂貴。

本文提出了一種新的有效的多模態影象標註形式,稱之為定位敘事。定位敘述是透過要求註釋者用他們的聲音描述一個影象,同時將滑鼠懸停在他們描述的區域上而生成的。例如,如上圖所示,註釋者一邊說“woman”,一邊用滑鼠指示她的空間範圍,從而為這個名詞提供了視覺基礎。後來,他們把滑鼠從女人身上移到氣球上,跟著氣球的繩子,說“holding”。這為這種關係提供了直接的視覺基礎。它們還描述了“晴朗的藍天”和“淺藍色牛仔褲”等屬性。由於語音與滑鼠指標同步,因此可以確定描述中每個單詞的影象位置。這以滑鼠軌跡段的形式為每個單詞提供了密集視覺基礎。這一豐富的註釋方法具有多種形式(影象、文字、語音和位置),可用於文字到影象生成、視覺問答和語音驅動的環境導航等不同的任務。或者,為了更精細地控制任務,可以在影象的特定部分設定條件化字幕,視力不理想的人可以透過將手指懸停在影象上來獲得特定部分的描述。

UNITER: UNiversal Image-TExt Representation Learning

(https://arxiv.org/abs/1909.11740)

大多數視覺與語言任務(V&L)如視覺問答(VQA)依賴於多模態聯合嵌入來彌補影象和文字中視覺和文字線索之間的語義鴻溝。但是這種表示通常是為特定的任務定製的,並且需要特定的體系結構。為了學習可用於所有V&L下游任務的通用聯合嵌入。本文介紹了一種大規模聯合多模態嵌入預訓練模型 UNITER ,如下圖所示。在transformer模型的基礎上,對UNITER進行了4個任務的預訓練:基於影象的蒙版語言建模(MLM),利用影象和文字特徵恢復隨機蒙版單詞。以文字為條件的蒙版區域建模(MRM),即重構給定影象的某些區域;影象文字匹配(ITM),即預測影象和文字例項是否配對;以及單詞區域對齊(WRA),即學習最佳變換找到單詞和影象之間的最佳對齊。為了在下游任務中使用UNITER,首先將其重新表示為分類問題,然後使用交叉熵損失對新增在[CLS]特徵上的分類器進行訓練。

Learning to Learn Words from Visual Scenes

(https://arxiv.org/abs/1911.11237)

視覺和語言任務的標準方法是學習一個共同的嵌入空間,但是這種方法效率很低,通常需要數百萬個例子來學習,對語言的自然構成結構的泛化很差,而且所學嵌入在推理時無法適應新詞。因此,本文提出讓網路嘗試學習單詞嵌入的過程,而不是學習單詞嵌入。

該模型基於transformer模型,在每次迭代中,該模型接收一個影象語言對,然後元學習一個策略從該集中獲取詞表示。這就使得我們能夠在推理時獲得新單詞的表示,並且能夠更魯棒地推廣到新的描述任務中。具體來說,每一個任務都是一個語言習得任務或一個小插曲,由訓練樣本和測試樣本組成,測試樣本對從訓練樣本中獲得的語言進行評價。例如,在上圖中,模型需要從訓練樣本中獲取單詞“chair”,這是它以前從未見過的單詞。元訓練是在向前傳遞中完成的,並使得模型需要指向訓練示例中正確的單詞“chair”,並使用匹配損失來訓練整個模型。經過多種事件和任務的訓練,該模型能夠很快適應推理過程中的新任務。

結語

讓人感到遺憾的是,論文的數量使得總結任務變得困難和耗時。所以對於其餘的論文,我將簡單地列出一些我遇到的論文的標題,如果讀者對這些主題感興趣的話也方便自行查詢研究(參考原文)。

17
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • Redis為什麼這麼快?