1)什麼是Seq2Seq網路
正如網路命名所示,seq2seq網路是一個序列到序列的網路,也就說輸入是一個序列,輸出是一個序列。
比較常見的序列形式,可以是一個文字,或者是影象中的某一行。
2)網路架構
Seq2Seq網路是在RNN和LSTM的基礎之上提出的。
RNN網路架構:
LSTM網路架構:
seq2seq網路架構:
迴圈神經網路RNN的缺點就是記住的東西太多了,對知識的輸入“沒輕沒重”;長短時記憶網路LSTM在RNN基礎之上加入遺忘單元,使得模型可以有選擇的記住一些東西;端到端的seq2seq網路看上圖可以發現,它是由編碼端和解碼端組成,每一端都是由若干個LSTM的單元組成,編碼端把輸入轉換成一箇中間向量作為解碼段的輸入進行解碼,從而得到網路的結果。
seq2seq網路的訓練過程如下:給定文字的輸入到編碼端,得到一箇中間向量;解碼段的輸入由兩部分組成,一是中間向量和上一個LSTM單元的輸出預測值,二是會將每一個LSTM單元的真實label標籤再輸入給本LSTM單元,幫助解碼段強制性地往正確的方向去預測輸出。seq2seq網路的測試的過程,解碼端的輸入就沒有第二部分,真實label了,只有中間向量和上一個LSTM輸出的預測值作為輸入,編碼端的輸入就是一些隨機的文字。
3)Attention機制
上述的seq2seq網路架構存在資訊壓縮的問題,比如輸入“He loved to eat”可能會導致開始輸入的資訊(“He”)遭到忽視,最近輸入的資訊(“eat”)會有更大的比重,導致seq2seq網路模型效果收到文字輸入長度的限制。為了避免這種現象,學者們提出了Attention機制,Attention機制就是一個加權的過程,具體的加權演算法在不同的問題上的設定也不同。
加入Attention機制的影象處理過程能以“高解析度”聚焦在圖片上的某些特定區域,以“低解析度”感知影象的周邊區域;加入Attention機制的自然語言處理過程,在機器翻譯、摘要生成、閱讀理解等問題上,效果都得到了顯著的提升。
4)加入Attention機制的seq2seq網路模型的應用
關於seq2seq網路模型的應用場景,目前最常見的就是在機器翻譯問題上,從基於規則的、到基於統計的、再到目前基於深度學習的seq2seq網路模型,機器翻譯的效果已經得到極大的提升,發揮了巨大的商業價值。
1)什麼是Seq2Seq網路
正如網路命名所示,seq2seq網路是一個序列到序列的網路,也就說輸入是一個序列,輸出是一個序列。
比較常見的序列形式,可以是一個文字,或者是影象中的某一行。
2)網路架構
Seq2Seq網路是在RNN和LSTM的基礎之上提出的。
RNN網路架構:
LSTM網路架構:
seq2seq網路架構:
迴圈神經網路RNN的缺點就是記住的東西太多了,對知識的輸入“沒輕沒重”;長短時記憶網路LSTM在RNN基礎之上加入遺忘單元,使得模型可以有選擇的記住一些東西;端到端的seq2seq網路看上圖可以發現,它是由編碼端和解碼端組成,每一端都是由若干個LSTM的單元組成,編碼端把輸入轉換成一箇中間向量作為解碼段的輸入進行解碼,從而得到網路的結果。
seq2seq網路的訓練過程如下:給定文字的輸入到編碼端,得到一箇中間向量;解碼段的輸入由兩部分組成,一是中間向量和上一個LSTM單元的輸出預測值,二是會將每一個LSTM單元的真實label標籤再輸入給本LSTM單元,幫助解碼段強制性地往正確的方向去預測輸出。seq2seq網路的測試的過程,解碼端的輸入就沒有第二部分,真實label了,只有中間向量和上一個LSTM輸出的預測值作為輸入,編碼端的輸入就是一些隨機的文字。
3)Attention機制
上述的seq2seq網路架構存在資訊壓縮的問題,比如輸入“He loved to eat”可能會導致開始輸入的資訊(“He”)遭到忽視,最近輸入的資訊(“eat”)會有更大的比重,導致seq2seq網路模型效果收到文字輸入長度的限制。為了避免這種現象,學者們提出了Attention機制,Attention機制就是一個加權的過程,具體的加權演算法在不同的問題上的設定也不同。
加入Attention機制的影象處理過程能以“高解析度”聚焦在圖片上的某些特定區域,以“低解析度”感知影象的周邊區域;加入Attention機制的自然語言處理過程,在機器翻譯、摘要生成、閱讀理解等問題上,效果都得到了顯著的提升。
4)加入Attention機制的seq2seq網路模型的應用
關於seq2seq網路模型的應用場景,目前最常見的就是在機器翻譯問題上,從基於規則的、到基於統計的、再到目前基於深度學習的seq2seq網路模型,機器翻譯的效果已經得到極大的提升,發揮了巨大的商業價值。