2018-10-26
閱讀量:
927
Python結(jié)巴中文分詞
結(jié)巴分詞(Jieba)是python中一個(gè)比較常用的中文分詞包,功能包括:中文分詞、詞性標(biāo)注、未登錄詞識(shí)別等。
一、結(jié)巴分詞下載與安裝
1、下載結(jié)巴分詞(jieba)
?官方下載地址:https://pypi.python.org/pypi/jieba/
2、將下載好的ZIP包,解壓縮到新建文件夾中
3、進(jìn)入Windows下cmd命令框,輸入如下命令
C:\Users\Admin>e:
E:\>cd 新建文件夾
E:\新建文件夾>cd jieba-0.38
D:\新建文件夾\jieba-0.38>python setup.py install
#=========== 安裝完成 ============#
二、結(jié)巴中文分詞基礎(chǔ)應(yīng)用
?結(jié)巴分詞共支持如下三種分詞模式:
?精確模式 也是最常用的模式,適合文本分析;
?全模式 把句子中所有的可以組成詞的詞語都切分出來;
?搜索引擎模式 在精確模式的基礎(chǔ)上,對(duì)長詞再次切分,從而提高召回率;
import jieba
text="小明碩士畢業(yè)于中國科學(xué)院計(jì)算所,后在日本京都大學(xué)深造"
seg_list = jieba.cut(text, cut_all = False)
print("Precise Mode: " + "/".join(seg_list)) #精確模式
seg_list = jieba.cut(text, cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut_for_search(text) #搜索引擎模式
print("Search Mode: " + "/".join(seg_list))Python執(zhí)行結(jié)果:
Precise Mode: 小明/碩士/畢業(yè)/于/中國科學(xué)院/計(jì)算所/,/后/在/日本京都大學(xué)/深造
Full Mode: 小/ 明/ 碩士/ 畢業(yè)/ 于/ 中國/ 中國科學(xué)院/ 科學(xué)/ 科學(xué)院/ 學(xué)院/ 計(jì)算/ 計(jì)算所/ / / 后/ 在/ 日本/ 日本京都大學(xué)/ 京都/ 京都大學(xué)/ 大學(xué)/ 深造
Search Mode: 小明/碩士/畢業(yè)/于/中國/科學(xué)/學(xué)院/科學(xué)院/中國科學(xué)院/計(jì)算/計(jì)算所/,/后/在/日本/京都/大學(xué)/日本京都大學(xué)/深造






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論