99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-16 閱讀量: 2280
中文分詞jieba的學(xué)習(xí)分享
  1. jieba.cut 接受三個(gè)輸入?yún)?shù): 需要分詞的字符串;cut_all 參數(shù)用來控制是否采用全模式;HMM 參數(shù)用來控制是否使用 HMM 模型
  2. 待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。
  3. jieba.cut 返回的結(jié)構(gòu)都是一個(gè)可迭代的 generator,可以使用 for 循環(huán)來獲得分詞后得到的每一個(gè)詞語(unicode),或者用
  4. jieba.lcut 直接返回 list
 #加載自定義字典jieba.load_userdict("newdic.txt)
獲取關(guān)鍵詞
# jieba.cut 生成generator
# 全模式分詞
seg_list = jieba.cut("我來北京上學(xué)", cut_all=True)
print("Full Model " + '/'.join(seg_list))
# 精確模式 (默認(rèn))
seg_list = jieba.cut("我來北京上學(xué)", cut_all=False)
# jieba.lcut 生成List
tags = jieba.lcut(text)
tags_df = pd.DataFrame({'segment': tags})
# 去除停用詞
stopword = pd.read_csv("stopwords.txt", header=None, names=['words'], encoding='utf-8')
tags_df = tags_df[~tags_df['segment'].isin(stopword.words)]
print(tags_df)
正則表達(dá)式取中文字符
pattern = re.compile(r'[\u4e00-\u9fa5]+')
filter_data = re.findall(pattern, text)
text = ''.join(filter_data)
print(text)
# 獲取關(guān)鍵詞
# tags = jieba.analyse.extract_tags(text, topK=3)
# jieba.lcut 生成List
tags = jieba.lcut(text)
tags_df = pd.DataFrame({'segment': tags})
# 去除停用詞
stopword = pd.read_csv("stopwords.txt", header=None, names=['words'], encoding='utf-8')
tags_df = tags_df[~tags_df['segment'].isin(stopword.words)]
# tags_df.index =
print(tags_df)
# 詞頻計(jì)數(shù)
word_count = tags_df.groupby('segment')['segment'].count().sort_values(ascending=False)
print(word_count[:5])

142.1984
0
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無數(shù)據(jù)
推薦帖子