
作者:閑歡
來源:Python 技術(shù)
2021年已經(jīng)過去了,但是這一年發(fā)生了很多令人難忘的事情,相信每個人心目中都有很多感慨。
為了回顧2021年都發(fā)生了哪些大事,我打算從熱搜下手,看看2021年都有哪些熱搜事件。
大家都知道,微博熱搜是實時更新的,并且沒有歷史記錄,所以從微博的網(wǎng)站上找不到歷史的熱搜數(shù)據(jù)。我們只能另想它法了。經(jīng)過我不懈的摸索,終于找到了一個網(wǎng)站,它記錄了每日的微博實時熱搜,并且是一分鐘一次。也可以在網(wǎng)站上通過日期查詢當(dāng)天的數(shù)據(jù)。
有了目標(biāo)網(wǎng)站就好說,我們想辦法從目標(biāo)網(wǎng)站下載數(shù)據(jù)就好。這個網(wǎng)站提供了付費下載數(shù)據(jù)的方式。我這里為了給大家演示使用 Python 爬蟲爬取數(shù)據(jù),就不付費下載了。
網(wǎng)站的請求也比較簡單,大家打開網(wǎng)頁的開發(fā)工具,可以很快定位到獲取請求的 URL 。這里就不贅述了,直接上代碼:
headers = { "Host": "google-api.zhaoyizhe.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" } def scrapy(date): print('開始爬取%s' % date)
url = 'https://google-api.zhaoyizhe.com/google-api/index/mon/sec?date=%s' % date try:
time.sleep(random.randint(1, 3))
res = requests.get(url, headers=headers).json()
result = res['data'] return result except Exception as err:
print(err) return None
我們定義一個爬取的函數(shù),通過傳入日期來爬取一天的熱搜數(shù)據(jù)。整個2021年的數(shù)據(jù)我們只需要循環(huán)請求每一天即可。
整個數(shù)據(jù)下載下來一共12萬多條:
分析熱點事件,最好的方法就是把這些事件描述制作成詞云,突出顯示的就是最熱門的,一目了然。
def gen_wc_split_text(data_list=[], max_words=None, background_color=None, # font_path='/System/Library/Fonts/PingFang.ttc', font_path=r'C:WindowsFontssimhei.ttf',
output_path='', output_name='',
mask_path=None, mask_name=None,
width=400, height=200, max_font_size=100, axis='off'): stopwords = open(r'c:pworkspacemypypythontechweibohotstopwords.txt', 'r', encoding='utf-8').read().split('n')[:-1]
words_dict = {} for data in data_list:
text = data['topic']
hotNumber = data['hotNumber'] if hotNumber is None:
hotNumber = 1 all_seg = jieba.cut(text, cut_all=False) for seg in all_seg: if seg in stopwords or seg == 'unknow': continue if seg in words_dict.keys():
words_dict[seg] += hotNumber else:
words_dict[seg] = hotNumber # 設(shè)置一個底圖 mask = None if mask_path is not None:
mask = np.array(Image.open(path.join(mask_path, mask_name)))
wordcloud = WordCloud(background_color=background_color,
mask=mask,
max_words=max_words,
min_font_size=15,
max_font_size=80,
width=300,
height=400, # 如果不設(shè)置中文字體,可能會出現(xiàn)亂碼 font_path=font_path)
myword = wordcloud.generate_from_frequencies(words_dict) # 展示詞云圖 # plt.imshow(myword) # plt.axis(axis) # plt.show() # 保存詞云圖 wordcloud.to_file(path.join(output_path, output_name))
制作詞云我們選擇試用 jieba 分詞,使用我們熟悉的 wordcloud 來制作詞云。
我們先來看看2021年全年的詞云圖片:
看著這張詞云圖片,是不是有好多熟悉的詞匯?
接下來,我們按月份來統(tǒng)計熱門事件,具體需要做的就是將每個月的熱搜事件歸集起來,然后根據(jù)熱度以及出現(xiàn)頻率疊加,來輸出詞云。
代碼還是跟上面類似,只不過是將事件按月分類而已。
我們直接來看每個月的圖片吧。
2021年在疫情中開啟,在大家喊著“告別2020,開啟2021”時,石家莊疫情爆發(fā),進(jìn)入戰(zhàn)時狀態(tài)。
薇婭也在這個月開始直播年貨。
最后以陳翔出軌關(guān)曉彤導(dǎo)致工作室互懟結(jié)束。
這個月最熱門的事件肯定是我們的傳統(tǒng)春節(jié)了。
賈玲的導(dǎo)演處女作《你好,李煥英》,一上映就口碑炸裂。
這個月我們失去了兩位明星,分別是趙英俊和吳孟達(dá),一個時代的記憶就此落幕。
這個月明星白敬亭出盡風(fēng)頭。
HM、耐克等眾多我們熟知的國外品牌抵制新疆棉花,遭到央視點評,全民憤怒。
這個月中美高層對話,71歲的楊潔篪老爺子怒懟東道主美國。
4月,各地大規(guī)模全員動員打疫苗。
也是這個月,日本宣布把福島核廢水排進(jìn)太平洋。
這個月趙麗穎和馮紹峰宣布離婚,明星事件真是層出不窮。
最令人痛心的事件是雜交水稻之父袁老爺子走了,舉國哀悼。
而就在同一天,“中國肝膽外科之父”吳孟超院士也去世了。
5月20日,全網(wǎng)盼離的佟丫丫,終于宣布和陳思誠離婚。
6月的大事件當(dāng)屬高考。
這個月,汪小菲和大S頻上熱搜。
這個月,神舟十二號飛船成功發(fā)射,3名航天員飛到了“天宮”。
這個月,河南鄭州暴雨成災(zāi),舉國矚目。
這個月,東京奧運會開幕,林丹和李宗偉一起看奧運。
這個月,吳亦凡翻車,都美竹爆料,網(wǎng)友又多了一個“吳簽”的梗。
這個月,奧運會捷報頻傳,全紅嬋、蘇炳添進(jìn)入大眾視野。
吳亦凡事件繼續(xù)發(fā)酵,都美竹對吳亦凡的指控成真讓他成為內(nèi)娛被刑拘愛豆第一人。
演員張哲瀚被爆出進(jìn)入靖國神社內(nèi)部,拍攝多張開心比“耶”的照片,剛翻紅就掉下去了。
孟晚舟在被困加拿大近三年后,終于回國。
體育盛事全運會刷屏。
全國人民中秋節(jié)一起吃月餅賞月。
國慶檔大片《長津湖》打破8項影史記錄。
知名鋼琴家李云迪嫖娼被抓。朝陽群眾又立一功。
上海一個獨居女孩,被裝進(jìn)行李箱拋尸。
電競戰(zhàn)隊EDG再奪冠,轟動全球。
上海迪士尼幾萬人封園做核酸。
雙十一,董明珠隆重推出22歲的女助理孟羽童,“明珠羽童精選”直播間開播。
娛樂圈優(yōu)質(zhì)偶像王力宏被曝渣男,徹底崩塌。
直播女王薇婭因偷漏稅被罰了13.4億。吃瓜群眾驚呼,原來直播這么暴力。
西安出現(xiàn)“多源頭不明的點狀社區(qū)傳播”,緊急“封城”。
2021年是不平凡的一年,這一年,我們見證了太多。新冠疫情始終是籠罩我們上空的一團(tuán)烏云。在這個特別的年份里,娛樂圈也是精彩不斷,各種離婚事件層出不窮,幾大優(yōu)質(zhì)形象瞬間成渣。
2022年也將是不平凡的一年,愿疫情早點過去,世界和我們都能更好!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03