1,詞袋模型和 N-gram 模型
最基礎(chǔ)的文本表示模型是詞袋模型。顧名思義,就是將每篇文章看
成一袋子詞,并忽略每個(gè)詞出現(xiàn)的順序 。具體地說(shuō),就是將整段文本以
詞為單位切分開(kāi),然后每篇文章可以表示成一個(gè)長(zhǎng)向量,向量中的每一
維代表一個(gè)主要詞,而該維對(duì)應(yīng)的權(quán)重則反映了這個(gè)詞在原文章中的重要
程度。
( n <= N ) 組成的詞組( N-gram )也作為一個(gè)單獨(dú)的特征搬到向量表
示中去,構(gòu)成 N-gram 模型 。
2,主題模型
主題模型用于從文本庫(kù)中發(fā)現(xiàn)有代表性的主題(得到每個(gè)主題上面
詞的分布特性 ) ,并且能夠計(jì)算出每篇文章的主題分布。
3, 詞嵌入與深度學(xué)習(xí)模型
詞嵌入是一類將詞向量化的模型的統(tǒng)稱 , 核心思想是將每個(gè)詞都
映射成低維空間(通常 K=50 ~ 300 維)上的一個(gè)稠密向量 ( Dense
Vector ) 。 K維空間的每一維也可以看作一個(gè)隱含的主題 , 只不過(guò)不像
主題模型中的主題那樣直觀 。
由于詞嵌入將每個(gè)詞映射成一個(gè) K維的向量, 如果一篇文檔有 N個(gè)
詞, 就可以用一個(gè) N×K維的生巨陣來(lái)表示這篇文擋,但是這樣的表示過(guò)于
底層 。 在實(shí)際應(yīng)用中,如果僅僅把這個(gè)矩陣作為原文本的表示特征輸入
到機(jī)器學(xué)習(xí)模型中,通常很難得到令人滿意的結(jié)果。因此 , 還需要在此
基礎(chǔ)之上加工出更高層的特征 。 在傳統(tǒng)的淺層機(jī)器學(xué)習(xí)模型中,一個(gè)好
的特征工程往往可以帶來(lái)算法效果的顯著提升 。 而深度學(xué)習(xí)模型正好為
我們提供了一種自動(dòng)地進(jìn)行特征工程的方式,模型中的每個(gè)隱層都可以
認(rèn)為對(duì)應(yīng)著不同抽象層次的特征 。 從這個(gè)角度來(lái)講,深度學(xué)習(xí)模型能夠
打敗淺層模型也就順理成章了 。 卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)在
文本表示中取得了很好的效果,主要是由于它們能夠更好地對(duì)文本進(jìn)行
建模,抽取出一些高層的語(yǔ)義特征 。 與全連接的網(wǎng)絡(luò)結(jié)構(gòu)相比 , 卷積神
經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)一方面很好地抓住了文本的特性,另一 方面又減
少了網(wǎng)絡(luò)中待學(xué)習(xí)的參數(shù),提高了訓(xùn)練速度,并且降低了過(guò)擬合的風(fēng)險(xiǎn) 。








暫無(wú)數(shù)據(jù)