seq2seq的網路架構是怎樣的？有什麼用途？

首頁>Club>2021-04-07 19:20

seq2seq的網路架構是怎樣的？有什麼用途？

回覆列表

1 # 北航秦曾昌

1）什麼是Seq2Seq網路

正如網路命名所示，seq2seq網路是一個序列到序列的網路，也就說輸入是一個序列，輸出是一個序列。

比較常見的序列形式，可以是一個文字，或者是影象中的某一行。

2）網路架構

Seq2Seq網路是在RNN和LSTM的基礎之上提出的。
RNN網路架構:

LSTM網路架構：

seq2seq網路架構：

迴圈神經網路RNN的缺點就是記住的東西太多了，對知識的輸入“沒輕沒重”；長短時記憶網路LSTM在RNN基礎之上加入遺忘單元，使得模型可以有選擇的記住一些東西；端到端的seq2seq網路看上圖可以發現，它是由編碼端和解碼端組成，每一端都是由若干個LSTM的單元組成，編碼端把輸入轉換成一箇中間向量作為解碼段的輸入進行解碼，從而得到網路的結果。

seq2seq網路的訓練過程如下：給定文字的輸入到編碼端，得到一箇中間向量；解碼段的輸入由兩部分組成，一是中間向量和上一個LSTM單元的輸出預測值，二是會將每一個LSTM單元的真實label標籤再輸入給本LSTM單元，幫助解碼段強制性地往正確的方向去預測輸出。seq2seq網路的測試的過程，解碼端的輸入就沒有第二部分，真實label了，只有中間向量和上一個LSTM輸出的預測值作為輸入，編碼端的輸入就是一些隨機的文字。
3）Attention機制

上述的seq2seq網路架構存在資訊壓縮的問題，比如輸入“He loved to eat”可能會導致開始輸入的資訊（“He”）遭到忽視，最近輸入的資訊（“eat”）會有更大的比重，導致seq2seq網路模型效果收到文字輸入長度的限制。為了避免這種現象，學者們提出了Attention機制，Attention機制就是一個加權的過程，具體的加權演算法在不同的問題上的設定也不同。

加入Attention機制的影象處理過程能以“高解析度”聚焦在圖片上的某些特定區域，以“低解析度”感知影象的周邊區域；加入Attention機制的自然語言處理過程，在機器翻譯、摘要生成、閱讀理解等問題上，效果都得到了顯著的提升。
4）加入Attention機制的seq2seq網路模型的應用

關於seq2seq網路模型的應用場景，目前最常見的就是在機器翻譯問題上，從基於規則的、到基於統計的、再到目前基於深度學習的seq2seq網路模型，機器翻譯的效果已經得到極大的提升，發揮了巨大的商業價值。

∧ 臺幣 28,000 買布偶貓划算嗎？內行人解析 5 大關鍵指標

∨ 假如我有一個神力作文600？

熱門排行

劇多

seq2seq的網路架構是怎樣的？有什麼用途？