99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2021-03-30 閱讀量: 803
有哪些文本表示模型?

1,詞袋模型和 N-gram 模型
最基礎(chǔ)的文本表示模型是詞袋模型。顧名思義,就是將每篇文章看
成一袋子詞,并忽略每個詞出現(xiàn)的順序 。具體地說,就是將整段文本以
詞為單位切分開,然后每篇文章可以表示成一個長向量,向量中的每一
維代表一個主要詞,而該維對應(yīng)的權(quán)重則反映了這個詞在原文章中的重要
程度。

可以將連續(xù)出現(xiàn)的 n 個詞
( n <= N ) 組成的詞組( N-gram )也作為一個單獨的特征搬到向量表
示中去,構(gòu)成 N-gram 模型 。


2,主題模型
主題模型用于從文本庫中發(fā)現(xiàn)有代表性的主題(得到每個主題上面
詞的分布特性 ) ,并且能夠計算出每篇文章的主題分布。


3, 詞嵌入與深度學(xué)習(xí)模型
詞嵌入是一類將詞向量化的模型的統(tǒng)稱 , 核心思想是將每個詞都
映射成低維空間(通常 K=50 ~ 300 維)上的一個稠密向量 ( Dense
Vector ) 。 K維空間的每一維也可以看作一個隱含的主題 , 只不過不像
主題模型中的主題那樣直觀 。
由于詞嵌入將每個詞映射成一個 K維的向量, 如果一篇文檔有 N個
詞, 就可以用一個 N×K維的生巨陣來表示這篇文擋,但是這樣的表示過于
底層 。 在實際應(yīng)用中,如果僅僅把這個矩陣作為原文本的表示特征輸入
到機器學(xué)習(xí)模型中,通常很難得到令人滿意的結(jié)果。因此 , 還需要在此
基礎(chǔ)之上加工出更高層的特征 。 在傳統(tǒng)的淺層機器學(xué)習(xí)模型中,一個好
的特征工程往往可以帶來算法效果的顯著提升 。 而深度學(xué)習(xí)模型正好為
我們提供了一種自動地進行特征工程的方式,模型中的每個隱層都可以
認為對應(yīng)著不同抽象層次的特征 。 從這個角度來講,深度學(xué)習(xí)模型能夠
打敗淺層模型也就順理成章了 。 卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)在
文本表示中取得了很好的效果,主要是由于它們能夠更好地對文本進行
建模,抽取出一些高層的語義特征 。 與全連接的網(wǎng)絡(luò)結(jié)構(gòu)相比 , 卷積神
經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)一方面很好地抓住了文本的特性,另一 方面又減
少了網(wǎng)絡(luò)中待學(xué)習(xí)的參數(shù),提高了訓(xùn)練速度,并且降低了過擬合的風(fēng)險 。

0.0157
0
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子