
基于R語言利用QQ群進行數(shù)據(jù)挖掘案例整理
利用QQ群進行數(shù)據(jù)挖掘案例,數(shù)據(jù)源來源于2016年12-2017年大致一個月的QQ群基本數(shù)據(jù),通過對聊天內容的分析,了解QQ聊天群資料了解時間,人群以及關鍵詞,并構建相應圖表、云圖等,下圖為本人所在提取的QQ群:
以下是R代碼部分:
file.data<-scan("C:/Users/admin/Desktop/數(shù)據(jù)挖掘機器學習R-Hive.txt",what="",sep="\n",encoding="UTF-8")
clean<-function(file.data){
data<-data.frame(user.name=c(),time=c(),text=c())
user.name=c();time=c();text=c();
for(i in 6:length(file.data))
{
reg.time<-regexpr("[0-9]{4}-[0-9]{2}-[0-9]{2}[0-9]+:[0-9]+:[0-9]+",file.data[i])
if(reg.time==1){#該行取到了時間信息
data<-rbind(data,data.frame(user.name=user.name,time=time,text=text))
text=c("1")
begin<-reg.time
end<-reg.time+attr(reg.time,"match.length")-1
time=substr(file.data[i],begin,end)
begin=reg.time+attr(reg.time,"match.length")+1
end<-nchar(file.data[i])
user.name<-substr(file.data[i],begin,end)#讀取用戶名信息
}
else{text=paste(text,file.data[i])}
}
return(data)}
data<-clean(file.data)#數(shù)據(jù)結構化
#活躍度計算
d1=table(data[,1])>d = data.frame(word = names(d1),freq = d1,stringsAsFactors = F) ;>d=d[order(d[,3],decreasing=T),]
#由于測試群記錄數(shù)據(jù)量,后期效果不是很明顯。這也是大數(shù)據(jù)火的原因吧?
>dim(d1)[1] 29>length(data[,1])[1] 164#轉換數(shù)據(jù)類型data$name<-as.character(data$user.name)data$text<-as.character(data$text)data$datatime<-as.POSIXlt(data$time)#整理賬期的年、月、日、時、分、秒部分
> data <- transform(data,
+ year = datatime$year+1900,
+ month = datatime$mon+1,
+ day = datatime$mday,
+ hour = datatime$hour,
+ min = datatime$min,
+ sec = datatime$sec)
>
> d1=table(data[,1])
> d = data.frame(word = names(d1),freq =d1,stringsAsFactors = F) ;
> d=d[order(d[,3],decreasing=T),]
> head(d)
# 活躍度統(tǒng)計
#去掉停用詞
mixseg = worker()
textt=paste(as.character(data[,3]),sep="",collapse ="")
textt<-mixseg<=textt
t=unlist(textt)
cnword<-read.csv("C:/Users/admin/Desktop/幾個停用詞.txt",header=F,stringsAsFactors=F)
cnword<-as.vector(cnword[1:dim(cnword)[1],])#需要為向量格式
t=t[!t%in%cnword]#去停用詞
t1=table( t )
plot(t1) 初步查看分詞不是很理想,繼續(xù)調整
> d =data.frame(word = names(d1),freq = d1,stringsAsFactors = F) ;
>d=d[order(d[,3],decreasing=T),]
>d=d[nchar(as.character(d$word))>1,]
>write.table(d,"C:/Users/admin/Desktop/幾個停用詞.txt聊天內容詞頻排名.csv",sep=",",row.names = F)
>t1=t1[!names(t1)%in%c("男神","女神","你懂的")]#去沒有意義的詞
> library(Rwordseg)
t1=t1[nchar(as.character(names(t1)))==2]
plot(t1,xlab="詞組",ylab="詞頻") #效果實例而已,好的數(shù)據(jù)會有好的效果。
---------用wordcloud進行過程-------------------------------------
#分詞后的詞語頻率匯總
> wdfreq <- as.data.frame(table(t1))
> head(wdfreq)
t1Freq
1 1 14
2 2 1
3 7 2
#頻數(shù)排序 **
wdfreq<-rev(sort(wdfreq$Freq))
------------------------------------------------------
#使用wordcloud2構造云圖
wordcloud2(t1,size=2,fontFamily='SegoeUI')
---------用wordcloud進行過程-------------------------------------
#分詞后的詞語頻率匯總
> wdfreq <- as.data.frame(table(t1))
> head(wdfreq)
t1Freq
1 1 14
2 2 1
3 7 2
#頻數(shù)排序 **
wdfreq<-rev(sort(wdfreq$Freq))
------------------------------------------------------
#使用wordcloud2構造云圖
wordcloud2(t1,size=2,fontFamily='SegoeUI')
> datax=substr(data[,2],1,10)#得到日期,不要時分秒
> a=table(datax)
> plot(a,xlab="日期",ylab="頻數(shù)",main="參與聊天人數(shù)/日期")
data1=data.frame(user.name=data[,1],data=substr(data[,2],1,10),time=substr(data[,2],12,regexpr(":",data[,2])-1),text=data[,3])
#write.table(data1," C:/Users/admin/Desktop/.細分數(shù)據(jù).csv",sep=",",row.names = F)
a=table(data1[,3])
plot(a,xlab="日期",ylab="頻數(shù)",col=4,main="參與聊天人數(shù)/二十小時分布")
WORDCLOUD2常用參數(shù):
(1)data:詞云生成數(shù)據(jù),包含具體詞語以及頻率;
(2)size:字體大小,默認為1,一般來說該值越小,生成的形狀輪廓越明顯;
(3)fontFamily:字體,如‘微軟雅黑’;
(4)fontWeight:字體粗細,包含‘normal’,‘bold’以及‘600’;;
(5)color:字體顏色,可以選擇‘random-dark’以及‘random-light’,其實就是顏色色系;
(6)backgroundColor:背景顏色,支持R語言中的常用顏色,如‘gray’,‘blcak’,但是還支持不了更加具體的顏色選擇,如‘gray20’;
(7)minRontatin與maxRontatin:字體旋轉角度范圍的最小值以及最大值,選定后,字體會在該范圍內隨機旋轉;
(8)rotationRation:字體旋轉比例,如設定為1,則全部詞語都會發(fā)生旋轉;
(9)shape:詞云形狀選擇,默認是‘circle’,即圓形。還可以選擇‘cardioid’(蘋果形或心形),‘star’(星形),‘diamond’(鉆石),‘triangle-forward’(三角形),‘triangle’(三角形),‘pentagon’(五邊形);
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03