簡單說一下。
在論文中提出的end2end transformer中(即encoder + decoder), 沒采用LSTM這種sequential NN. 但確實實現了N to M的非同步序列建模框架,可納入seq2seq。
2. "transformer可以用在分類或者命名實體識別標註這類看上去不太像seq2seq的問題上嗎?"
分類問題為N to 1, 序列標註為N to N, 不是N to M框架下的問題,不能直接套seq2seq框架。
3. "如果可以,怎麼用?"
像這種N to 1,N to N問題,只需要seq2seq中的encoder即可:
N to 1:輸出encoder的final output;
N to N:輸出encoder的outputs at each steps;
4. "transformer框架中編碼端傳給解碼端的是什麼?"
transformer是seq2seq模型,更確切地是attention-based seq2seq, encoder傳給decoder一個context matrix, which has a shape of ( , n是number of heads, 是文章的一個具體的維度).
5. "訓練和預測時,解碼端的輸入分別是什麼?"
跟rnn-based seq2seq模型一致的。根據不同的N to M任務,解碼端的輸入也會不同。
舉NMT任務為例:
訓練時,decoder的輸入at each step是each token in ground truth target sentence;
預測時,decoder的輸入at each step是token predicted at last step.
簡單說一下。
"transformer本質是seq2seq框架下的東西"在論文中提出的end2end transformer中(即encoder + decoder), 沒采用LSTM這種sequential NN. 但確實實現了N to M的非同步序列建模框架,可納入seq2seq。
2. "transformer可以用在分類或者命名實體識別標註這類看上去不太像seq2seq的問題上嗎?"
分類問題為N to 1, 序列標註為N to N, 不是N to M框架下的問題,不能直接套seq2seq框架。
3. "如果可以,怎麼用?"
像這種N to 1,N to N問題,只需要seq2seq中的encoder即可:
N to 1:輸出encoder的final output;
N to N:輸出encoder的outputs at each steps;
4. "transformer框架中編碼端傳給解碼端的是什麼?"
transformer是seq2seq模型,更確切地是attention-based seq2seq, encoder傳給decoder一個context matrix, which has a shape of ( , n是number of heads, 是文章的一個具體的維度).
5. "訓練和預測時,解碼端的輸入分別是什麼?"
跟rnn-based seq2seq模型一致的。根據不同的N to M任務,解碼端的輸入也會不同。
舉NMT任務為例:
訓練時,decoder的輸入at each step是each token in ground truth target sentence;
預測時,decoder的輸入at each step是token predicted at last step.