各位行業(yè)大佬,求助呀??~~~我最近在用R做文本分析,代碼下
bingqi<-lapply(bingqicsr,function(x) unlist(segmentCN(x)))
執(zhí)行上述語(yǔ)句分詞后:
......
[4] "第34期"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
? ?[5] "辛"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
? ?[6] "克"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
? ?[7] "萊"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
? ?[8] "著"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
? ?[9] "王"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[10] "建華"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[11] "譯"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[12] "提要"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[13] "本文"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[14] "首先"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[15] "指出"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[16] "建立"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[17] "語(yǔ)料庫(kù)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[18] "的"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[19] "重要性"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[20] "接著"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[21] "談"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[22] "了"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[23] "語(yǔ)料庫(kù)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[24] "的"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[25] "設(shè)計(jì)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[26] "選材"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[27] "的"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[28] "方法"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[29] "和"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[30] "標(biāo)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[31] "語(yǔ)料庫(kù)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[32] "建立"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[33] "的"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[34] "框架"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[35] "和"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[36] "規(guī)定"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[37] "語(yǔ)料庫(kù)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[38] "的"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[39] "類型"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[40] "等"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[41] "幾個(gè)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[42] "方面"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[43] "在"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[44] "語(yǔ)料庫(kù)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[45] "的"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[46] "類型"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[47] "部分"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[48] "本文"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[49] "重點(diǎn)"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[50] "Creation"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[51] "Sinclair"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[52] "譯者"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
??[53] "Wangjianhua"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[54] "Thispaperfirstreferstotheimportanceofcreatingcorpora"
??[55] "Thenitpresents"? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ???
??[56] "points"
......? ?
# 問題來了,
??#1.這是一個(gè)向量庫(kù)嗎?據(jù)說只有變成向量后才能繼續(xù)處理。
??#2.還需要再建立語(yǔ)料庫(kù),以便于后續(xù)的詞云、分類等處理嗎?
??#我試建立如下語(yǔ)句? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
temp<-Corpus(VectorSource(bingqi),readerControl = list(reader = readplain,language = 'cn'))
? ?#系統(tǒng)錯(cuò)誤提示:Error in prepareReader(readerControl, reader(x)) : object 'readplain' not found。
? ?#問題:
? ?#1. readerControl = list(reader = readplain,language = 'cn') ,readerControl = list(reader = x$DefaultReader,language = 'cn'),readerControl = list(reader = read(x),language = 'cn'),這三種語(yǔ)句有啥區(qū)別?
??#換用如下語(yǔ)句:
??temp<-Corpus(VectorSource(bingqi),readerControl = list(reader = reader(VectorSource(bingqi),language = 'cn')))
??inspect(temp)
??##執(zhí)行后結(jié)果:
? ?<<SimpleCorpus>>
Metadata:??corpus specific: 1, document level (indexed): 0
Content:??documents: 3
[1] c("語(yǔ)言", "數(shù)據(jù)", "導(dǎo)入", "DataCampBlog", "編譯", "亮", "亮", "語(yǔ)言", "數(shù)據(jù)", "讀入", "的", "核心", "函數(shù)", "read", "table", "現(xiàn)在", "我們", "了解", "一下", "其", "他", "可", "scan", "read", "table", "這", "類", "讀取", "文本", "文檔", "的", "函數(shù)", "還", "可以", "用", "scan", "函數(shù)", "讀入", "不同", "的", "是", "19", "19", "19", "scan", "e", "birth", "txt", "1", "241991211993531962", "data", "nrow", "2", "byrow", "FALSE", "1", "2", "3", "1", "242153", "2", "199119931962", "也",
......








暫無數(shù)據(jù)