久久精品视频在线看15,国产乱码二卡3卡四卡

啊啊啊啊啊吖

2018-10-16 閱讀量: 2359

中文分詞jieba的學(xué)習(xí)分享

jieba.cut 接受三個輸入?yún)?shù): 需要分詞的字符串；cut_all 參數(shù)用來控制是否采用全模式；HMM 參數(shù)用來控制是否使用 HMM 模型
待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。
jieba.cut 返回的結(jié)構(gòu)都是一個可迭代的 generator，可以使用 for 循環(huán)來獲得分詞后得到的每一個詞語(unicode)，或者用
jieba.lcut 直接返回 list

 #加載自定義字典jieba.load_userdict("newdic.txt)
獲取關(guān)鍵詞
# jieba.cut 生成generator
# 全模式分詞
seg_list = jieba.cut("我來北京上學(xué)", cut_all=True)
print("Full Model " + '/'.join(seg_list))
# 精確模式 （默認(rèn)）
seg_list = jieba.cut("我來北京上學(xué)", cut_all=False)
# jieba.lcut 生成List
tags = jieba.lcut(text)
tags_df = pd.DataFrame({'segment': tags})
# 去除停用詞
stopword = pd.read_csv("stopwords.txt", header=None, names=['words'], encoding='utf-8')
tags_df = tags_df[~tags_df['segment'].isin(stopword.words)]
print(tags_df)
 正則表達(dá)式取中文字符
pattern = re.compile(r'[\u4e00-\u9fa5]+')
filter_data = re.findall(pattern, text)
text = ''.join(filter_data)
print(text)
# 獲取關(guān)鍵詞
# tags = jieba.analyse.extract_tags(text, topK=3)
# jieba.lcut 生成List
tags = jieba.lcut(text)
tags_df = pd.DataFrame({'segment': tags})
# 去除停用詞
stopword = pd.read_csv("stopwords.txt", header=None, names=['words'], encoding='utf-8')
tags_df = tags_df[~tags_df['segment'].isin(stopword.words)]
# tags_df.index =
print(tags_df)
# 詞頻計數(shù)
word_count = tags_df.groupby('segment')['segment'].count().sort_values(ascending=False)
print(word_count[:5])