99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀基于R語言利用QQ群進(jìn)行數(shù)據(jù)挖掘案例整理

基于R語言利用QQ群進(jìn)行數(shù)據(jù)挖掘案例整理

2017-07-10

基于R語言利用QQ群進(jìn)行數(shù)據(jù)挖掘案例整理

利用QQ群進(jìn)行數(shù)據(jù)挖掘案例，數(shù)據(jù)源來源于2016年12-2017年大致一個月的QQ群基本數(shù)據(jù)，通過對聊天內(nèi)容的分析，了解QQ聊天群資料了解時間，人群以及關(guān)鍵詞，并構(gòu)建相應(yīng)圖表、云圖等，下圖為本人所在提取的QQ群：

以下是R代碼部分：

file.data<-scan("C:/Users/admin/Desktop/數(shù)據(jù)挖掘機器學(xué)習(xí)R-Hive.txt",what="",sep="\n",encoding="UTF-8")

#數(shù)據(jù)清洗

clean<-function(file.data){

data<-data.frame(user.name=c(),time=c(),text=c())

user.name=c();time=c();text=c();

for(i in 6:length(file.data))

{

reg.time<-regexpr("[0-9]{4}-[0-9]{2}-[0-9]{2}[0-9]+:[0-9]+:[0-9]+",file.data[i])

if(reg.time==1){#該行取到了時間信息

data<-rbind(data,data.frame(user.name=user.name,time=time,text=text))

text=c("1")

begin<-reg.time

end<-reg.time+attr(reg.time,"match.length")-1

time=substr(file.data[i],begin,end)

begin=reg.time+attr(reg.time,"match.length")+1

end<-nchar(file.data[i])

user.name<-substr(file.data[i],begin,end)#讀取用戶名信息

}

else{text=paste(text,file.data[i])}

}

return(data)}

data<-clean(file.data)#數(shù)據(jù)結(jié)構(gòu)化

#活躍度計算

d1=table(data[,1])>d = data.frame(word = names(d1),freq = d1,stringsAsFactors = F) ;>d=d[order(d[,3],decreasing=T),]

#由于測試群記錄數(shù)據(jù)量，后期效果不是很明顯。這也是大數(shù)據(jù)火的原因吧？

>dim(d1)[1] 29>length(data[,1])[1] 164#轉(zhuǎn)換數(shù)據(jù)類型data$name<-as.character(data$user.name)data$text<-as.character(data$text)data$datatime<-as.POSIXlt(data$time)#整理賬期的年、月、日、時、分、秒部分

> data <- transform(data,

+ year = datatime$year+1900,

+ month = datatime$mon+1,

+ day = datatime$mday,

+ hour = datatime$hour,

+ min = datatime$min,

+ sec = datatime$sec)

> d1=table(data[,1])

> d = data.frame(word = names(d1),freq =d1,stringsAsFactors = F) ;

> d=d[order(d[,3],decreasing=T),]

> head(d)

# 活躍度統(tǒng)計

#去掉停用詞

mixseg = worker()

textt=paste(as.character(data[,3]),sep="",collapse ="")

textt<-mixseg<=textt

t=unlist(textt)

cnword<-read.csv("C:/Users/admin/Desktop/幾個停用詞.txt",header=F,stringsAsFactors=F)

cnword<-as.vector(cnword[1:dim(cnword)[1],])#需要為向量格式

t=t[!t%in%cnword]#去停用詞

t1=table( t )

plot（t1）初步查看分詞不是很理想，繼續(xù)調(diào)整

> d1=t1

> d =data.frame(word = names(d1),freq = d1,stringsAsFactors = F) ;

>d=d[order(d[,3],decreasing=T),]

>d=d[nchar(as.character(d$word))>1,]

>write.table(d,"C:/Users/admin/Desktop/幾個停用詞.txt聊天內(nèi)容詞頻排名.csv",sep=",",row.names = F)

t1=table( t )

>t1=t1[!names(t1)%in%c("男神","女神","你懂的")]#去沒有意義的詞

> library(Rwordseg)

t1=t1[nchar(as.character(names(t1)))==2]

plot(t1,xlab="詞組",ylab="詞頻") #效果實例而已，好的數(shù)據(jù)會有好的效果。

---------用wordcloud進(jìn)行過程-------------------------------------

#分詞后的詞語頻率匯總

> wdfreq <- as.data.frame(table(t1))

> head(wdfreq)

t1Freq

1 1 14

2 2 1

3 7 2

#頻數(shù)排序 **

wdfreq<-rev(sort(wdfreq$Freq))

------------------------------------------------------

#使用wordcloud2構(gòu)造云圖

wordcloud2(t1,size=2,fontFamily='SegoeUI')

---------用wordcloud進(jìn)行過程-------------------------------------

#分詞后的詞語頻率匯總

> wdfreq <- as.data.frame(table(t1))

> head(wdfreq)

t1Freq

1 1 14

2 2 1

3 7 2

#頻數(shù)排序 **

wdfreq<-rev(sort(wdfreq$Freq))

------------------------------------------------------

#使用wordcloud2構(gòu)造云圖

wordcloud2(t1,size=2,fontFamily='SegoeUI')

> datax=substr(data[,2],1,10)#得到日期，不要時分秒

> a=table(datax)

> plot(a,xlab="日期",ylab="頻數(shù)",main="參與聊天人數(shù)/日期")

data1=data.frame(user.name=data[,1],data=substr(data[,2],1,10),time=substr(data[,2],12,regexpr(":",data[,2])-1),text=data[,3])

#write.table(data1," C:/Users/admin/Desktop/.細(xì)分?jǐn)?shù)據(jù).csv",sep=",",row.names = F)

a=table(data1[,3])

plot(a,xlab="日期",ylab="頻數(shù)",col=4,main="參與聊天人數(shù)/二十小時分布")

WORDCLOUD2常用參數(shù)：

（1）data：詞云生成數(shù)據(jù)，包含具體詞語以及頻率；

（2）size：字體大小，默認(rèn)為1，一般來說該值越小，生成的形狀輪廓越明顯；

（3）fontFamily：字體，如‘微軟雅黑’；

（4）fontWeight：字體粗細(xì)，包含‘normal’，‘bold’以及‘600’；；

（5）color：字體顏色,可以選擇‘random-dark’以及‘random-light’,其實就是顏色色系；

（6）backgroundColor：背景顏色，支持R語言中的常用顏色，如‘gray’，‘blcak’，但是還支持不了更加具體的顏色選擇，如‘gray20’；

（7）minRontatin與maxRontatin：字體旋轉(zhuǎn)角度范圍的最小值以及最大值，選定后，字體會在該范圍內(nèi)隨機旋轉(zhuǎn)；

（8）rotationRation：字體旋轉(zhuǎn)比例，如設(shè)定為1，則全部詞語都會發(fā)生旋轉(zhuǎn)；

（9）shape：詞云形狀選擇，默認(rèn)是‘circle’，即圓形。還可以選擇‘cardioid’（蘋果形或心形），‘star’（星形），‘diamond’（鉆石），‘triangle-forward’（三角形），‘triangle’（三角形），‘pentagon’（五邊形）；

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認(rèn)證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數(shù)據(jù)挖掘 R語言 Hive 數(shù)據(jù)清洗機器學(xué)習(xí) 大數(shù)據(jù)

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認(rèn)證再升一檔！與國家共同推進(jìn)大數(shù)據(jù)人才培養(yǎng)標(biāo)準(zhǔn)教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

基于R語言利用QQ群進(jìn)行數(shù)據(jù)挖掘案例整理

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

基于R語言利用QQ群進(jìn)行數(shù)據(jù)挖掘案例整理

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...