69久久夜色精品国产69,高h粗口调教羞辱sm文女王动画

CDA持證人阿濤哥

2021-03-30 閱讀量: 852

有哪些文本表示模型？

1，詞袋模型和 N-gram 模型
最基礎(chǔ)的文本表示模型是詞袋模型。顧名思義，就是將每篇文章看
成一袋子詞，并忽略每個(gè)詞出現(xiàn)的順序。具體地說(shuō)，就是將整段文本以
詞為單位切分開(kāi)，然后每篇文章可以表示成一個(gè)長(zhǎng)向量，向量中的每一
維代表一個(gè)主要詞，而該維對(duì)應(yīng)的權(quán)重則反映了這個(gè)詞在原文章中的重要
程度。

可以將連續(xù)出現(xiàn)的 n 個(gè)詞
( n <= N ）組成的詞組（ N-gram ）也作為一個(gè)單獨(dú)的特征搬到向量表
示中去，構(gòu)成 N-gram 模型。

2，主題模型
主題模型用于從文本庫(kù)中發(fā)現(xiàn)有代表性的主題（得到每個(gè)主題上面
詞的分布特性），并且能夠計(jì)算出每篇文章的主題分布。

3，詞嵌入與深度學(xué)習(xí)模型
詞嵌入是一類將詞向量化的模型的統(tǒng)稱，核心思想是將每個(gè)詞都
映射成低維空間（通常 K=50 ～ 300 維）上的一個(gè)稠密向量（ Dense
Vector ）。 K維空間的每一維也可以看作一個(gè)隱含的主題，只不過(guò)不像
主題模型中的主題那樣直觀。
由于詞嵌入將每個(gè)詞映射成一個(gè) K維的向量，如果一篇文檔有 N個(gè)
詞, 就可以用一個(gè) N×K維的生巨陣來(lái)表示這篇文擋，但是這樣的表示過(guò)于
底層。在實(shí)際應(yīng)用中，如果僅僅把這個(gè)矩陣作為原文本的表示特征輸入
到機(jī)器學(xué)習(xí)模型中，通常很難得到令人滿意的結(jié)果。因此，還需要在此
基礎(chǔ)之上加工出更高層的特征。在傳統(tǒng)的淺層機(jī)器學(xué)習(xí)模型中，一個(gè)好
的特征工程往往可以帶來(lái)算法效果的顯著提升。而深度學(xué)習(xí)模型正好為
我們提供了一種自動(dòng)地進(jìn)行特征工程的方式，模型中的每個(gè)隱層都可以
認(rèn)為對(duì)應(yīng)著不同抽象層次的特征。從這個(gè)角度來(lái)講，深度學(xué)習(xí)模型能夠
打敗淺層模型也就順理成章了。卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)在
文本表示中取得了很好的效果，主要是由于它們能夠更好地對(duì)文本進(jìn)行
建模，抽取出一些高層的語(yǔ)義特征。與全連接的網(wǎng)絡(luò)結(jié)構(gòu)相比，卷積神
經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)一方面很好地抓住了文本的特性，另一方面又減
少了網(wǎng)絡(luò)中待學(xué)習(xí)的參數(shù)，提高了訓(xùn)練速度，并且降低了過(guò)擬合的風(fēng)險(xiǎn) 。