首頁>Club>
6
回覆列表
  • 1 # 使用者9242990255577

    簡單說一下。

    "transformer本質是seq2seq框架下的東西"

    在論文中提出的end2end transformer中(即encoder + decoder), 沒采用LSTM這種sequential NN. 但確實實現了N to M的非同步序列建模框架,可納入seq2seq。

    2. "transformer可以用在分類或者命名實體識別標註這類看上去不太像seq2seq的問題上嗎?"

    分類問題為N to 1, 序列標註為N to N, 不是N to M框架下的問題,不能直接套seq2seq框架。

    3. "如果可以,怎麼用?"

    像這種N to 1,N to N問題,只需要seq2seq中的encoder即可:

    N to 1:輸出encoder的final output;

    N to N:輸出encoder的outputs at each steps;

    4. "transformer框架中編碼端傳給解碼端的是什麼?"

    transformer是seq2seq模型,更確切地是attention-based seq2seq, encoder傳給decoder一個context matrix, which has a shape of ( , n是number of heads, 是文章的一個具體的維度).

    5. "訓練和預測時,解碼端的輸入分別是什麼?"

    跟rnn-based seq2seq模型一致的。根據不同的N to M任務,解碼端的輸入也會不同。

    舉NMT任務為例:

    訓練時,decoder的輸入at each step是each token in ground truth target sentence;

    預測時,decoder的輸入at each step是token predicted at last step.

  • 中秋節和大豐收的關聯?
  • 張藝興為什麼不退出EXO?