如何理解在各類NLP或CTR預估模型中，將embedding求平均這一做法的物理意義？

首頁>Club>2021-01-25 14:08

如何理解在各類NLP或CTR預估模型中，將embedding求平均這一做法的物理意義？

10

回覆列表

1 # HelloNLP

我來解釋一下。

1、首先，假設embedding的維度是512。那麼，我們可以將這512維中的每一維想象成語義空間上的某一維度的資訊。

2、那麼，怎樣解釋這一維所代表的資訊呢？這就是問題的核心了。答案：這一維表達了一個或者多個相似語義的資訊。例如情感相關的詞語：愛情、感情、夫妻、友情等。這些與情感相關的詞語在這一維上得到了充分的表達，也可以理解為這一維主要是用來表達情感相關的資訊。
3、依此類推，其它維度也各自表達了具有代表性的語義資訊。與此同時，不同維度之間也會有交集，並不是獨立的。舉個例子，比如第一維代表了情感相關的資訊，第二維代表了食物相關的資訊。那麼這兩個維度多多少少會有一些交集。

4、那麼、如果瞭解每一維度的意義之後，再來理解求embedding的平均的意義應該很好理解了。例如一句話有多個詞語，每一個詞語在空間的每一維上都有自己相應的資訊。求embedding的平均就意味著要計算句子中所有詞語在每一維上面的平均資訊量。

2 # 六識社長

其實沒什麼道理……詞向量平均相加得出的結果只要有差異性就行了，想想詞袋模型和這個有什麼區別？就是除了一個n而已，比較文字是有長短之分的…… 至於廣義下的embeding平均也是降緯而已，想想maxpooling，不是還有平均池化嗎？能有什麼理論呢？能體現差異性就行，深度學習首先在影象(CNN)發跡，大家不過是直接借用，等有了效果，就給了一個只是看上去合理的解釋而已

∧ 中秋節和大豐收的關聯？

∨ 打耳洞對眼睛好有科學依據嗎？我聽說有這個說法？

熱門排行