
作者:閑歡
來源:Python 技術(shù)
2021年已經(jīng)過去了,但是這一年發(fā)生了很多令人難忘的事情,相信每個人心目中都有很多感慨。
為了回顧2021年都發(fā)生了哪些大事,我打算從熱搜下手,看看2021年都有哪些熱搜事件。
大家都知道,微博熱搜是實(shí)時更新的,并且沒有歷史記錄,所以從微博的網(wǎng)站上找不到歷史的熱搜數(shù)據(jù)。我們只能另想它法了。經(jīng)過我不懈的摸索,終于找到了一個網(wǎng)站,它記錄了每日的微博實(shí)時熱搜,并且是一分鐘一次。也可以在網(wǎng)站上通過日期查詢當(dāng)天的數(shù)據(jù)。
有了目標(biāo)網(wǎng)站就好說,我們想辦法從目標(biāo)網(wǎng)站下載數(shù)據(jù)就好。這個網(wǎng)站提供了付費(fèi)下載數(shù)據(jù)的方式。我這里為了給大家演示使用 Python 爬蟲爬取數(shù)據(jù),就不付費(fèi)下載了。
網(wǎng)站的請求也比較簡單,大家打開網(wǎng)頁的開發(fā)工具,可以很快定位到獲取請求的 URL 。這里就不贅述了,直接上代碼:
headers = { "Host": "google-api.zhaoyizhe.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" } def scrapy(date): print('開始爬取%s' % date)
url = 'https://google-api.zhaoyizhe.com/google-api/index/mon/sec?date=%s' % date try:
time.sleep(random.randint(1, 3))
res = requests.get(url, headers=headers).json()
result = res['data'] return result except Exception as err:
print(err) return None
我們定義一個爬取的函數(shù),通過傳入日期來爬取一天的熱搜數(shù)據(jù)。整個2021年的數(shù)據(jù)我們只需要循環(huán)請求每一天即可。
整個數(shù)據(jù)下載下來一共12萬多條:
分析熱點(diǎn)事件,最好的方法就是把這些事件描述制作成詞云,突出顯示的就是最熱門的,一目了然。
def gen_wc_split_text(data_list=[], max_words=None, background_color=None, # font_path='/System/Library/Fonts/PingFang.ttc', font_path=r'C:WindowsFontssimhei.ttf',
output_path='', output_name='',
mask_path=None, mask_name=None,
width=400, height=200, max_font_size=100, axis='off'): stopwords = open(r'c:pworkspacemypypythontechweibohotstopwords.txt', 'r', encoding='utf-8').read().split('n')[:-1]
words_dict = {} for data in data_list:
text = data['topic']
hotNumber = data['hotNumber'] if hotNumber is None:
hotNumber = 1 all_seg = jieba.cut(text, cut_all=False) for seg in all_seg: if seg in stopwords or seg == 'unknow': continue if seg in words_dict.keys():
words_dict[seg] += hotNumber else:
words_dict[seg] = hotNumber # 設(shè)置一個底圖 mask = None if mask_path is not None:
mask = np.array(Image.open(path.join(mask_path, mask_name)))
wordcloud = WordCloud(background_color=background_color,
mask=mask,
max_words=max_words,
min_font_size=15,
max_font_size=80,
width=300,
height=400, # 如果不設(shè)置中文字體,可能會出現(xiàn)亂碼 font_path=font_path)
myword = wordcloud.generate_from_frequencies(words_dict) # 展示詞云圖 # plt.imshow(myword) # plt.axis(axis) # plt.show() # 保存詞云圖 wordcloud.to_file(path.join(output_path, output_name))
制作詞云我們選擇試用 jieba 分詞,使用我們熟悉的 wordcloud 來制作詞云。
我們先來看看2021年全年的詞云圖片:
看著這張詞云圖片,是不是有好多熟悉的詞匯?
接下來,我們按月份來統(tǒng)計熱門事件,具體需要做的就是將每個月的熱搜事件歸集起來,然后根據(jù)熱度以及出現(xiàn)頻率疊加,來輸出詞云。
代碼還是跟上面類似,只不過是將事件按月分類而已。
我們直接來看每個月的圖片吧。
2021年在疫情中開啟,在大家喊著“告別2020,開啟2021”時,石家莊疫情爆發(fā),進(jìn)入戰(zhàn)時狀態(tài)。
薇婭也在這個月開始直播年貨。
最后以陳翔出軌關(guān)曉彤導(dǎo)致工作室互懟結(jié)束。
這個月最熱門的事件肯定是我們的傳統(tǒng)春節(jié)了。
賈玲的導(dǎo)演處女作《你好,李煥英》,一上映就口碑炸裂。
這個月我們失去了兩位明星,分別是趙英俊和吳孟達(dá),一個時代的記憶就此落幕。
這個月明星白敬亭出盡風(fēng)頭。
HM、耐克等眾多我們熟知的國外品牌抵制新疆棉花,遭到央視點(diǎn)評,全民憤怒。
這個月中美高層對話,71歲的楊潔篪老爺子怒懟東道主美國。
4月,各地大規(guī)模全員動員打疫苗。
也是這個月,日本宣布把福島核廢水排進(jìn)太平洋。
這個月趙麗穎和馮紹峰宣布離婚,明星事件真是層出不窮。
最令人痛心的事件是雜交水稻之父袁老爺子走了,舉國哀悼。
而就在同一天,“中國肝膽外科之父”吳孟超院士也去世了。
5月20日,全網(wǎng)盼離的佟丫丫,終于宣布和陳思誠離婚。
6月的大事件當(dāng)屬高考。
這個月,汪小菲和大S頻上熱搜。
這個月,神舟十二號飛船成功發(fā)射,3名航天員飛到了“天宮”。
這個月,河南鄭州暴雨成災(zāi),舉國矚目。
這個月,東京奧運(yùn)會開幕,林丹和李宗偉一起看奧運(yùn)。
這個月,吳亦凡翻車,都美竹爆料,網(wǎng)友又多了一個“吳簽”的梗。
這個月,奧運(yùn)會捷報頻傳,全紅嬋、蘇炳添進(jìn)入大眾視野。
吳亦凡事件繼續(xù)發(fā)酵,都美竹對吳亦凡的指控成真讓他成為內(nèi)娛被刑拘愛豆第一人。
演員張哲瀚被爆出進(jìn)入靖國神社內(nèi)部,拍攝多張開心比“耶”的照片,剛翻紅就掉下去了。
孟晚舟在被困加拿大近三年后,終于回國。
體育盛事全運(yùn)會刷屏。
全國人民中秋節(jié)一起吃月餅賞月。
國慶檔大片《長津湖》打破8項(xiàng)影史記錄。
知名鋼琴家李云迪嫖娼被抓。朝陽群眾又立一功。
上海一個獨(dú)居女孩,被裝進(jìn)行李箱拋尸。
電競戰(zhàn)隊(duì)EDG再奪冠,轟動全球。
上海迪士尼幾萬人封園做核酸。
雙十一,董明珠隆重推出22歲的女助理孟羽童,“明珠羽童精選”直播間開播。
娛樂圈優(yōu)質(zhì)偶像王力宏被曝渣男,徹底崩塌。
直播女王薇婭因偷漏稅被罰了13.4億。吃瓜群眾驚呼,原來直播這么暴力。
西安出現(xiàn)“多源頭不明的點(diǎn)狀社區(qū)傳播”,緊急“封城”。
2021年是不平凡的一年,這一年,我們見證了太多。新冠疫情始終是籠罩我們上空的一團(tuán)烏云。在這個特別的年份里,娛樂圈也是精彩不斷,各種離婚事件層出不窮,幾大優(yōu)質(zhì)形象瞬間成渣。
2022年也將是不平凡的一年,愿疫情早點(diǎn)過去,世界和我們都能更好!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10