Transform有什麼功？

首頁>Club>2021-02-22 11:41

Transform有什麼功？

6

回覆列表

1 # 使用者9242990255577

簡單說一下。
"transformer本質是seq2seq框架下的東西"
在論文中提出的end2end transformer中（即encoder + decoder）, 沒采用LSTM這種sequential NN. 但確實實現了N to M的非同步序列建模框架，可納入seq2seq。

2. "transformer可以用在分類或者命名實體識別標註這類看上去不太像seq2seq的問題上嗎？"
分類問題為N to 1, 序列標註為N to N, 不是N to M框架下的問題，不能直接套seq2seq框架。

3. "如果可以，怎麼用？"

像這種N to 1，N to N問題，只需要seq2seq中的encoder即可：

N to 1：輸出encoder的final output;

N to N：輸出encoder的outputs at each steps;

4. "transformer框架中編碼端傳給解碼端的是什麼?"

transformer是seq2seq模型，更確切地是attention-based seq2seq, encoder傳給decoder一個context matrix, which has a shape of ( , n是number of heads, 是文章的一個具體的維度).
5. "訓練和預測時，解碼端的輸入分別是什麼？"

跟rnn-based seq2seq模型一致的。根據不同的N to M任務，解碼端的輸入也會不同。

舉NMT任務為例：

訓練時，decoder的輸入at each step是each token in ground truth target sentence;

預測時，decoder的輸入at each step是token predicted at last step.

相關內容

∧ 中秋節和大豐收的關聯？

∨ 張藝興為什麼不退出EXO？

熱門排行