2018-10-16
閱讀量:
2280
中文分詞jieba的學(xué)習(xí)分享
- jieba.cut 接受三個(gè)輸入?yún)?shù): 需要分詞的字符串;cut_all 參數(shù)用來控制是否采用全模式;HMM 參數(shù)用來控制是否使用 HMM 模型
- 待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。
- jieba.cut 返回的結(jié)構(gòu)都是一個(gè)可迭代的 generator,可以使用 for 循環(huán)來獲得分詞后得到的每一個(gè)詞語(unicode),或者用
- jieba.lcut 直接返回 list
#加載自定義字典jieba.load_userdict("newdic.txt)
獲取關(guān)鍵詞
# jieba.cut 生成generator
# 全模式分詞
seg_list = jieba.cut("我來北京上學(xué)", cut_all=True)
print("Full Model " + '/'.join(seg_list))
# 精確模式 (默認(rèn))
seg_list = jieba.cut("我來北京上學(xué)", cut_all=False)
# jieba.lcut 生成List
tags = jieba.lcut(text)
tags_df = pd.DataFrame({'segment': tags})
# 去除停用詞
stopword = pd.read_csv("stopwords.txt", header=None, names=['words'], encoding='utf-8')
tags_df = tags_df[~tags_df['segment'].isin(stopword.words)]
print(tags_df)
正則表達(dá)式取中文字符
pattern = re.compile(r'[\u4e00-\u9fa5]+')
filter_data = re.findall(pattern, text)
text = ''.join(filter_data)
print(text)
# 獲取關(guān)鍵詞
# tags = jieba.analyse.extract_tags(text, topK=3)
# jieba.lcut 生成List
tags = jieba.lcut(text)
tags_df = pd.DataFrame({'segment': tags})
# 去除停用詞
stopword = pd.read_csv("stopwords.txt", header=None, names=['words'], encoding='utf-8')
tags_df = tags_df[~tags_df['segment'].isin(stopword.words)]
# tags_df.index =
print(tags_df)
# 詞頻計(jì)數(shù)
word_count = tags_df.groupby('segment')['segment'].count().sort_values(ascending=False)
print(word_count[:5])






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論