
作者 | 俊欣
來源 | AI籃球與生活
年末尾上映的古裝劇《慶余年》可謂是賺足了眼球,號稱投資了7個億,集齊陳道明吳剛袁泉等一票老戲骨,實力演員張若昀李沁主演,又有新頂流肖戰(zhàn)做配,在播出后沒多久便圈粉無數(shù)
在微博上對該話題的討論和閱讀數(shù)量已經達到了幾十億(當然會存在水軍的成分),播一集就能上微博熱搜。在打分苛刻的豆瓣上面,截至目前為止,共有15萬人參與了打分,評分也維持在了7.9分左右搖擺,各大視頻網站也想趁這波熱潮想要從觀眾手中賺上一筆,特地推出了一個“超前點播“,惹得網友和眾多媒體吐槽聲不斷,
而前幾天的整部劇全集被泄露又是掀起了一波高潮,一些主流的視頻網站和版權方也因此損失慘重。當然我們整個社會需要加強打擊盜版這種違法行為,不過“超前點播”這種吃相并不好看的行為倒并不值得提倡!!
Anyway,今天小編呢從豆瓣上面爬取了關于慶余年的相關信息,通過“大數(shù)據”(其實并不大,或者還有點?。﹣韼痛蠹曳治鲆幌拢瑸槭裁从^眾喜歡看這部劇,喜歡看這部劇的觀眾又是誰以及看了之后又是怎么評價的。
01
數(shù)據的獲取
首先是關于數(shù)據的獲取,要想獲取豆瓣上面的數(shù)據,首先需要登錄自己的豆瓣賬戶和密碼,并且獲取cookie,然后跳轉到《慶余年》相關的頁面,就是這個樣子,
然后我們利用request庫發(fā)送請求,便能夠獲得我們想要的數(shù)據,相當簡單。小編此次爬取了觀看過、正在觀看的觀眾的相關信息以及評論的具體內容。
登錄豆瓣頁面并獲取cookie
爬取評論內容
02
數(shù)據的分析和挖掘
爬完數(shù)據之后,接下來便是簡單的數(shù)據清理和分析,以及數(shù)據可視化。用Python做數(shù)據可視化的工具有很多,目前比較輕量級好用的庫是pyecharts,在這里,小編就不做贅述。我們看一下pyecharts來對已經獲取的數(shù)據做的可視化結果。
1、總體評分
《慶余年》在豆瓣當中的總體評分維持在7.9分左后,并不算低,并且有15萬人參與了評分。從評分的分布來看,大多數(shù)評分給了4星,占總數(shù)的48.7%,其次是5星,占總數(shù)的36.5%,剩下便是3星及以下的評分,一共占到了總數(shù)的14.8%,已經是一個相當?shù)偷谋壤恕?/span>
2、城市以及省份的差異
首先是直方圖來粗略的展示前十大追劇熱度最高的城市,如下圖所示
但是直方圖的呈現(xiàn)并不總是那么的直觀和易于理解,所以小編也采用地圖的形式向大家展示主要看劇的觀眾分布在哪幾個區(qū)域,
可以看得出來,在長三角和珠三角這兩片區(qū)域聚集了大量熱愛該部劇的粉絲。
3、評論分析
在整理和分析了評論內容之后,小編首先是對包含劇中人物的評論做了歸類,并通過直方圖來呈現(xiàn),
從直方圖中我們可以看到,范閑和慶帝是被提到的次數(shù)最多的兩位人物,接下去便是林婉兒和長公主(畢竟人家皮膚這么好,看著一點都像40多歲的女性?)。既然張若昀在劇中的人氣這么高,小編便對針對范閑的評論做了進一步的探索,并用wordcloud庫繪制詞云圖。從詞云的分析情況來看,“劇情”,“搞笑”,“演技”,“原著”等字眼格外的醒目。
的確,這部劇不僅僅是劇情有趣,每一個演員演技還相當在線,該部劇不僅有張若昀、李沁、肖戰(zhàn)等青年演員,還有一大批演技精湛的老戲骨參演,其中7名是國家一級演員,(“一級演員”是文藝界設立的專業(yè)技術職稱,是國家對演員的最高職稱享受國務院特殊津貼。能獲得國家一級演員的稱號是莫大的榮譽)。
劇情精彩不拖沓,主演專業(yè)不尷尬,人物設定完美,劇中臺詞又不時會誕生各種金句和表情包,于情于理《慶余年》確實很難不火。
而《慶余年》的第二季也很快會開始拍攝,這下喜歡該劇的觀眾和粉絲可以期待一下了!
數(shù)據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據分析師:表結構數(shù)據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(如數(shù)據庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據分析師:解鎖表結構數(shù)據特征價值的專業(yè)核心 表結構數(shù)據(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據,如數(shù)據庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據差異是否 “ ...
2025-09-16CDA 數(shù)據分析師:掌控表格結構數(shù)據全功能周期的專業(yè)操盤手 表格結構數(shù)據(以 “行 - 列” 存儲的結構化數(shù)據,如 Excel 表、數(shù)據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據分析師:激活表格結構數(shù)據價值的核心操盤手 表格結構數(shù)據(如 Excel 表格、數(shù)據庫表)是企業(yè)最基礎、最核心的數(shù)據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據的科學計數(shù)法問題 為幫助 Python 數(shù)據從業(yè)者解決pd.read_csv讀取長浮點數(shù)據時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據分析師:業(yè)務數(shù)據分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據分析師與戰(zhàn)略 / 業(yè)務數(shù)據分析:概念辨析與協(xié)同價值 在數(shù)據驅動決策的體系中,“戰(zhàn)略數(shù)據分析”“業(yè)務數(shù)據分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據解讀到決策支撐的價值導向 統(tǒng)計模型作為數(shù)據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10