河馬解答^-^:
目前主流的文字摘要自動生成有兩種方式:
一種是抽取式(extractive)
另一種是生成式(abstractive)
所謂的抽取式,就是抽取文字的關鍵詞或者位置等特徵,摘取原文內容做摘要
抽取式到目前已經發展得相對成熟,但是內容和流暢度以及連貫性卻並沒有達到期望效果,隨著深度學習的發展,生成式對內容流暢度有了較大的提升,但是也存在新的問題:文字過長會導致抽取內容不佳。
根據問題,我們就詳細探討一下生成式:
2015年-2016年,學術界出現了大量基於深度學習(主要是Seq2Seq模型)做文字摘要的論文,並且闡述了透過深度學習做文字摘要能夠得出較好的實驗效果。
生成式文字摘要模型,主要依靠深度神經網路結構實現,重點是Google的textsum模型
這個模型是基於Tensorflow框架搭建的,模型結構為LSTM模型+Attentio機制,encoder每層雙向LSTM,輸入的序列長度就是文章的長度(擷取文章前100個句子,每個句子的每個詞做詞嵌入處理成128維);decoder為4層RNN,每層為ATTENTION+decoder,神經元是256個LSTM。最後使用BSDecoder做解碼得到摘要句子。最終模型會輸出30以內的摘要句子。
發展:
2014年:
Goolge Brain團隊提出的Sequence-to-Sequence序列(編、解碼器/Encoder、Decoder架構)
論文《Neural Machine Translation by Jointly Learning to Align and Translate》,第一次將Attention機制應用於NLP中
2016年:
Facebook AI Research(FAIR)發表了《A Convolutional Encoder Model for Neural Machine Translation》,對Encoder部分採用不擅長處理序列資訊的卷積網路(CNN)來處理,結果在翻譯、摘要任務中,達到了當年的最高水準;
2017年:
還是FAIR,釋出了《Convolutional Sequence to Sequence Learning》,
第一次實現Encoder、Decoder均採用CNN單元,使網路在訓練階段能夠平行計算,效率進一步提升。
同時引入了Multi-step Attention,相比於之前只在最後一層生成翻譯時往回看,多跳注意(Multi-step Attention)的最佳化點在於Decoder階段生成每一層的語義向量時都會往回看,進而提升了準確度。
Google團隊,《Attention Is All You Need》,不用CNN和RNN單元,只用Self-Attention和Encoder-Decoder Attention,就完全實現了端到端的翻譯任務。
以上觀點如有錯誤,還請指正
河馬解答^-^:
目前主流的文字摘要自動生成有兩種方式:
一種是抽取式(extractive)
另一種是生成式(abstractive)
所謂的抽取式,就是抽取文字的關鍵詞或者位置等特徵,摘取原文內容做摘要
抽取式到目前已經發展得相對成熟,但是內容和流暢度以及連貫性卻並沒有達到期望效果,隨著深度學習的發展,生成式對內容流暢度有了較大的提升,但是也存在新的問題:文字過長會導致抽取內容不佳。
根據問題,我們就詳細探討一下生成式:
2015年-2016年,學術界出現了大量基於深度學習(主要是Seq2Seq模型)做文字摘要的論文,並且闡述了透過深度學習做文字摘要能夠得出較好的實驗效果。
生成式文字摘要模型,主要依靠深度神經網路結構實現,重點是Google的textsum模型
這個模型是基於Tensorflow框架搭建的,模型結構為LSTM模型+Attentio機制,encoder每層雙向LSTM,輸入的序列長度就是文章的長度(擷取文章前100個句子,每個句子的每個詞做詞嵌入處理成128維);decoder為4層RNN,每層為ATTENTION+decoder,神經元是256個LSTM。最後使用BSDecoder做解碼得到摘要句子。最終模型會輸出30以內的摘要句子。
發展:
2014年:
Goolge Brain團隊提出的Sequence-to-Sequence序列(編、解碼器/Encoder、Decoder架構)
論文《Neural Machine Translation by Jointly Learning to Align and Translate》,第一次將Attention機制應用於NLP中
2016年:
Facebook AI Research(FAIR)發表了《A Convolutional Encoder Model for Neural Machine Translation》,對Encoder部分採用不擅長處理序列資訊的卷積網路(CNN)來處理,結果在翻譯、摘要任務中,達到了當年的最高水準;
2017年:
還是FAIR,釋出了《Convolutional Sequence to Sequence Learning》,
第一次實現Encoder、Decoder均採用CNN單元,使網路在訓練階段能夠平行計算,效率進一步提升。
同時引入了Multi-step Attention,相比於之前只在最後一層生成翻譯時往回看,多跳注意(Multi-step Attention)的最佳化點在於Decoder階段生成每一層的語義向量時都會往回看,進而提升了準確度。
Google團隊,《Attention Is All You Need》,不用CNN和RNN單元,只用Self-Attention和Encoder-Decoder Attention,就完全實現了端到端的翻譯任務。
以上觀點如有錯誤,還請指正