回覆列表
-
1 # HelloNLP
-
2 # 六識社長
其實沒什麼道理……詞向量平均相加得出的結果只要有差異性就行了,想想詞袋模型和這個有什麼區別?就是除了一個n而已,比較文字是有長短之分的…… 至於廣義下的embeding平均也是降緯而已,想想maxpooling,不是還有平均池化嗎?能有什麼理論呢?能體現差異性就行,深度學習首先在影象(CNN)發跡,大家不過是直接借用,等有了效果,就給了一個只是看上去合理的解釋而已
我來解釋一下。
1、首先,假設embedding的維度是512。那麼,我們可以將這512維中的每一維想象成語義空間上的某一維度的資訊。
2、那麼,怎樣解釋這一維所代表的資訊呢?這就是問題的核心了。答案:這一維表達了一個或者多個相似語義的資訊。例如情感相關的詞語:愛情、感情、夫妻、友情等。這些與情感相關的詞語在這一維上得到了充分的表達,也可以理解為這一維主要是用來表達情感相關的資訊。
3、依此類推,其它維度也各自表達了具有代表性的語義資訊。與此同時,不同維度之間也會有交集,並不是獨立的。舉個例子,比如第一維代表了情感相關的資訊,第二維代表了食物相關的資訊。那麼這兩個維度多多少少會有一些交集。
4、那麼、如果瞭解每一維度的意義之後,再來理解求embedding的平均的意義應該很好理解了。例如一句話有多個詞語,每一個詞語在空間的每一維上都有自己相應的資訊。求embedding的平均就意味著要計算句子中所有詞語在每一維上面的平均資訊量。