99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-11-19 閱讀量: 830
文本挖掘中使用的特征工程技術(shù)是什么?

你知道你正在閱讀的這一行的每個單詞都可以轉(zhuǎn)換成一個函數(shù)嗎? 是的,你聽錯了。 文本數(shù)據(jù)提供了廣泛的可能性來生成新函數(shù)。 但有時候,我們最終會產(chǎn)生很多功能,在某種程度上處理它們會變成一項痛苦的任務(wù)。 因此,我們應(yīng)該仔細分析提取的特征。 別擔(dān)心! 下面解釋的方法也有助于減少結(jié)果數(shù)據(jù)集的維度。

以下是使用的常用功能工程方法列表:

1. n-gram :在文檔語料庫中,1個單詞(如嬰兒,游戲,飲料)被稱為1克。 同樣地,我們可以有2克(嬰兒玩具,游戲臺,鉆石戒指),3克等。這種技術(shù)背后的想法是探索當一個或兩個或多個單詞一起出現(xiàn)時給模型提供更多信息的機會。 。

2. TF - IDF :它也稱為術(shù)語頻率 - 反向文檔頻率。 該技術(shù)認為,從文檔語料庫中,學(xué)習(xí)算法從很少出現(xiàn)的術(shù)語獲得比經(jīng)常出現(xiàn)的術(shù)語更多的信息。 使用加權(quán)方案,此技術(shù)有助于評估術(shù)語的重要性。 經(jīng)常發(fā)生的術(shù)語加權(quán)較低,并且發(fā)生的術(shù)語很少被加權(quán)。 * TF計算為:文檔中術(shù)語的頻率/文檔中的所有術(shù)語。 * IDF計算如下:log的比率(語料庫中的文檔總數(shù)/文檔數(shù)量與語料庫中的'term')*最后,TF-IDF計算如下:TF X IDF。 幸運的是,R擁有可以進行這些計算工作的軟件包

3. 余弦相似度 - 此度量有助于查找類似文檔。 它是文本分析中常用的距離度量之一。 對于給定的2個長度為n的向量A和B,余弦相似度可以計算為兩個單位向量的點積:

4. Jaccard相似性 - 這是文本分析中使用的另一個距離度量。 對于給定的兩個向量(A和B),可以將其計算為(在任一向量中可用的兩個向量/項中可用的項的比率)。 它的公式是:(A∩B)/(AUB)。 要使用距離度量創(chuàng)建要素,首先我們將創(chuàng)建類似文檔的集群,并為新列中的每個文檔指定唯一標簽。

5. Levenshtein距離 - 我們也可以使用levenshtein距離根據(jù)兩個弦之間的距離創(chuàng)建一個新特征。 我們不會進入其復(fù)雜的公式,但要理解它的作用:它在較長的文本中找到較短的字符串,如果找到較短的字符串則返回最大值1。 例如:計算字符串“Alps Street 41”和“1st Block,Alps Street 41”的levenshtein距離將導(dǎo)致1。

6. 特征散列 - 這種技術(shù)實現(xiàn)了“散列技巧”,有助于減少文檔矩陣(較小列)的維度。 它不使用實際數(shù)據(jù),而是使用數(shù)據(jù)的索引[i,j],因此它僅在需要時處理數(shù)據(jù)。 而且,這就是它在計算中占用較少內(nèi)存的原因。

0.0000
4
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子