Word2Vec 與 LDA 的區(qū)別和聯(lián)系,首先, LDA 是利用文擋
中單詞的共現(xiàn)關(guān)系來對單詞按主題聚類,也可以理解為對“文擋 - 單詞”
矩陣進行分解, 得到“文檔 - 主題”和“主題 - 單詞”兩個概率分布 。
而 Word2Vec 真實是對“上下文 - 單詞”矩陣進行學(xué)習(xí),其中上下文由
周圍的幾個單詞組成,由此得到的詞向量表示更多地融入了上下文共現(xiàn)
的特征 。 也就是說,如果兩個單詞所對應(yīng)的 Word2Vec 向量相似度較高,
那么它們很可能經(jīng)常在同樣的上下文中出現(xiàn) 。需要說明的是,上述分析
的是 LDA 與 Word2Vec 的不同,不應(yīng)該作為主題模型和詞嵌入兩類方
法的主要差異 。 主題模型通過一定的結(jié)構(gòu)調(diào)整可以基于 “上下文,單詞”
矩陣進行主題推理 。 同樣地,詞嵌入方法也可以根據(jù)“文檔 - 單詞”矩陣
學(xué)習(xí)出詞的隱含向量表示 。 主題模型和詞嵌入兩類方法最大的不同其實
在于模型本身,主題模型是一種基于概率圖模型的生成式模型,其似
然函數(shù)可以寫成若干條件概率連乘的形式 , 其中包括需要推測的隱含變
量( 即主題);而詞嵌入模型一般表達為神經(jīng)網(wǎng)絡(luò)的形式,似然函數(shù)定
義在網(wǎng)絡(luò)的輸出之上,需要通過學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重以得到單詞的稠密向量
表示。








暫無數(shù)據(jù)