99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀R語言進(jìn)行中文分詞和聚類

R語言進(jìn)行中文分詞和聚類

2017-07-02

R語言進(jìn)行中文分詞和聚類

由于時(shí)間較緊，且人手不夠，不能采用分類方法，主要是沒有時(shí)間人工分類一部分生成訓(xùn)練集……所以只能用聚類方法，聚類最簡(jiǎn)單的方法無外乎：K-means與層次聚類。

嘗試過使用K-means方法，但結(jié)果并不好，所以最終采用的是層次聚類，也幸虧結(jié)果還不錯(cuò)……⊙﹏⊙

分詞（Rwordseg包）：

安裝：

P.S.

由于我是64位機(jī)，但是配置的rj包只能在32bit的R上使用，而且Rwordseg包貌似不支持最新版本的R（3.01），所以請(qǐng)?jiān)?2bit的R.exe中運(yùn)行如下語句安裝0.0-4版本：

[plain]view plaincopy

install.packages("Rwordseg",repos = "http://R-Forge.R-project.org")

貌似直接在Rstudio中運(yùn)行會(huì)安裝失敗，而且直接在Rstudio中點(diǎn)擊install安裝，安裝的是0.0-5版本，我就一直失敗……

使用：

1. 分詞時(shí)盡量關(guān)閉人名識(shí)別

[plain]view plaincopy

segmentCN(doc,recognition=F)

否則會(huì)將“中秋國慶”，分為“中”“秋國慶“

2. 可以使用insertWords()函數(shù)添加臨時(shí)的詞匯

3. 對(duì)文檔向量進(jìn)行分詞時(shí)，強(qiáng)烈建議用for循環(huán)對(duì)每一個(gè)元素執(zhí)行segmentCN，而不要對(duì)整個(gè)向量執(zhí)行?。?！因?yàn)槲业疤鄣陌l(fā)現(xiàn)對(duì)整個(gè)向量執(zhí)行時(shí)，還是會(huì)出現(xiàn)識(shí)別人名的現(xiàn)象……

4. 運(yùn)行完后請(qǐng)detach()包，removeWords()函數(shù)與tm包中的同名函數(shù)沖突。

微博分詞的一些建議：

1. 微博內(nèi)容中經(jīng)常含有url，分詞后會(huì)將url拆散當(dāng)做英文單詞處理，所以我們需要用正則表達(dá)式，將url去掉：

[plain]view plaincopy

gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",doc)

2. 微博中含有#標(biāo)簽#，可以盡量保證標(biāo)簽的分詞準(zhǔn)確，可以先提取標(biāo)簽，然后用insertWords()人工添加一部分詞匯：

[plain]view plaincopy

tag=str_extract(doc,"^#.+?#") #以“#”開頭，“."表示任意字符，"+"表示前面的字符至少出現(xiàn)一次，"?"表示不采用貪婪匹配—即之后遇到第一個(gè)#就結(jié)束
tag=na.omit(tag) #去除NA
tag=unique(tag) #去重

文本挖掘（tm包）：

語料庫：

分詞之后生成一個(gè)列表變量，用列表變量構(gòu)建語料庫。

由于tm包中的停用詞（）都是英文（可以輸入stopwords()查看），所以大家可以去網(wǎng)上查找中文的停用詞（一般700多個(gè)的就夠了，還有1208個(gè)詞版本的），用removeWords函數(shù)去除語料庫中的停用詞：

[plain]view plaincopy

doc.corpus=tm_map(doc.corpus,removeWords,stopwords_CN)

TDM：

生成語料庫之后，生成詞項(xiàng)-文檔矩陣（Term Document Matrix，TDM），顧名思義，TDM是一個(gè)矩陣，矩陣的列對(duì)應(yīng)語料庫中所有的文檔，矩陣的行對(duì)應(yīng)所有文檔中抽取的詞項(xiàng)，該矩陣中，一個(gè)[i,j]位置的元素代表詞項(xiàng)i在文檔j中出現(xiàn)的次數(shù)。

由于tm包是對(duì)英文文檔就行統(tǒng)計(jì)挖掘的，所以生成TDM時(shí)會(huì)對(duì)英文文檔進(jìn)行分詞（即使用標(biāo)點(diǎn)和空格分詞），之前Rwordseg包做的就是將中文語句拆分成一個(gè)個(gè)詞，并用空格間隔。

創(chuàng)建TDM的語句為：

[plain]view plaincopy

control=list(removePunctuation=T,minDocFreq=5,wordLengths= c(1, Inf),weighting = weightTfIdf)
doc.tdm=TermDocumentMatrix(doc.corpus,control)

變量control是一個(gè)選項(xiàng)列表，控制如何抽取文檔，removePunctuation表示去除標(biāo)點(diǎn)，minDocFreq=5表示只有在文檔中至少出現(xiàn)5次的詞才會(huì)出現(xiàn)在TDM的行中。

tm包默認(rèn)TDM中只保留至少3個(gè)字的詞（對(duì)英文來說比較合適，中文就不適用了吧……），wordLengths = c(1, Inf)表示字的長度至少從1開始。

默認(rèn)的加權(quán)方式是TF，即詞頻，這里采用Tf-Idf，該方法用于評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度：

1. 在一份給定的文件里，詞頻 (term frequency, TF) 指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。這個(gè)數(shù)字通常會(huì)被歸一化，以防止它偏向長的文件。

2. 逆向文件頻率 (inverse document frequency, IDF) 是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF，可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目，再將得到的商取對(duì)數(shù)得到。

3. 某一特定文件內(nèi)的高詞語頻率，以及該詞語在整個(gè)文件集合中的低文件頻率，可以產(chǎn)生出高權(quán)重的TF-IDF。因此，TF-IDF傾向于保留文檔中較為特別的詞語，過濾常用詞。

由于TDM大多都是稀疏的，需要用removeSparseTerms()函數(shù)進(jìn)行降維，值需要不斷的測(cè)試，我一般會(huì)使詞項(xiàng)減少到原有的一半。

層次聚類：

層次聚類的核心實(shí)際在距離陣的計(jì)算，一般聚類時(shí)會(huì)使用歐氏距離、閔氏距離等，但在大型數(shù)據(jù)條件下會(huì)優(yōu)先選擇 cosine 距離，及 dissmilarity 函數(shù)：

[plain]view plaincopy

dissimilarity(tdm_removed, method ='cosine')

（P.S.要使用cosine方法，需要先安裝proxy包。）

層次聚類的方法也有很多，這里選用mcquitty，大家還是多試試，本文給出的選擇不一定適合你~

注意：由于R對(duì)向量的大小有限制，所以在計(jì)算距離時(shí)，請(qǐng)優(yōu)先使用64bit，3.0版本的R~

但如果出現(xiàn)如下報(bào)錯(cuò)信息：

"Error in vector(typeof(x$v), nr * nc): vector size cannot be NA

In addition: Warning message:

In nr * nc : NAs produced by integeroverflow"

恭喜你！這個(gè)問題64位版本的R也解決不了，因?yàn)榫仃嚦隽薘允許的最大限制~我也是遇到同樣的問題，所以沒辦法，只能將原始數(shù)據(jù)進(jìn)行拆分，不過我的情況是多個(gè)微博賬戶，但彼此之間的微博分類差不太多，所以可以進(jìn)行拆分。強(qiáng)烈推薦大家有問題去stackoverflow查找！

（我看到有國外友人說可以用int64包嘗試一下，因?yàn)閠dm其實(shí)也是個(gè)list，但我沒試成功……）

#好了，下面貼上全部代碼：
################################################################
# 讀取數(shù)據(jù)
col=c(rep("character",6),"NULL",NA,NA,"character",rep("NULL",4))
data=read.csv(file="text.csv",header=T,sep=",",colClasses=col)
# 將文本存儲(chǔ)到一個(gè)向量中
doc=c(NULL)
for(i in 1:dim(data)[1]){
doc=c(doc,data$Text[i])
}
#################################################################
# 去除微博中含有的url
doc=gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",doc)
# 無意義微博處理
empty_N=c(2032,2912,7518,8939,14172,14422,26786,30126,34501,35239,48029,48426,48949,49100,49365,49386,49430,50034,56818,56824,56828,57859)
doc[empty_N]="NA"
#################################################################
# 添加詞匯
library("Rwordseg")
textwords=c("...")
insertWords(textwords)
# removeWords(tagwords)
doc_CN=list()
for(j in 1:length(doc)){
doc_CN[[j]]=c(segmentCN(doc[j],recognition=F))
}
detach("package:Rwordseg", unload=TRUE)
#################################################################
# 構(gòu)建語料庫(Corpus對(duì)象)
library("tm")
doc.corpus=Corpus(VectorSource(doc_CN))
###########停用詞###########
data_stw=read.table(file="中文停用詞庫.txt",colClasses="character")
stopwords_CN=c(NULL)
for(i in 1:dim(data_stw)[1]){
stopwords_CN=c(stopwords_CN,data_stw[i,1])
}
doc.corpus=tm_map(doc.corpus,removeWords,stopwords_CN) # 刪除停用詞
############################
# 創(chuàng)建詞項(xiàng)-文檔矩陣(TDM)
control=list(removePunctuation=T,minDocFreq=5,wordLengths = c(1, Inf),weighting = weightTfIdf)
doc.tdm=TermDocumentMatrix(doc.corpus,control)
length(doc.tdm$dimnames$Terms)
tdm_removed=removeSparseTerms(doc.tdm, 0.9998) # 1-去除了低于 99.98% 的稀疏條目項(xiàng)
length(tdm_removed$dimnames$Terms)
#################################################################
# 層次聚類：
dist_tdm_removed <- dissimilarity(tdm_removed, method = 'cosine')
hc <- hclust(dist_tdm_removed, method = 'mcquitty')
cutNum = 20
ct = cutree(hc,k=cutNum)
sink(file="result.txt")
for(i in 1:cutNum){
print(paste("第",i,"類： ",sum(ct==i),"個(gè)"));
print("----------------");
print(attr(ct[ct==i],"names"));
# print(doc[as.integer(names(ct[ct==i]))])
print("----------------")
}
sink()
#輸出結(jié)果
output=data.frame(clas=NULL,tag=NULL,text=NULL)
for(i in 1:cutNum){
in_tag=tag[as.integer(names(ct[ct==i]))]
in_text=doc[as.integer(names(ct[ct==i]))]
cut_output=data.frame(clas=rep(i,length(in_tag)),tag=in_tag,text=in_text)
output=rbind(output,cut_output)
}
write.table(output,file="classification.csv",sep=",",row.names=F)

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

層次聚類降維文本挖掘正則表達(dá)式 R語言

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認(rèn)證再升一檔！與國家共同推進(jìn)大數(shù)據(jù)人才培養(yǎng)標(biāo)準(zhǔn)教育事業(yè)！

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

R語言進(jìn)行中文分詞和聚類

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng) ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

R語言進(jìn)行中文分詞和聚類

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng) ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...