
作者:Mika
數(shù)據(jù):真達(dá)
后期:澤龍
【導(dǎo)讀】
最近《三十而已》這部劇頻頻霸占微博熱搜,今天我們就來聊一聊。
Python技術(shù)部分請直接看第四部分。
Show me data,用數(shù)據(jù)說話
今天我們聊一聊 《三十而已》
《乘風(fēng)破浪的姐姐》已成為這個(gè)夏天最火爆的話題,前有國綜"浪姐"高歌猛進(jìn),后有這部劇版"浪姐"《三十而已》讓人眼前一亮。
最近微博熱搜幾乎都被這部劇承包了,幾乎是每播一集就能上熱搜的那種,讓你沒追劇都能知道劇情進(jìn)展到哪兒了。
在這部劇中,江疏影、童瑤和毛曉彤三人攜手演繹了30歲都市女性的3種人生以及所面對的3種困境。劇中各種名場面也是讓這部劇徹底出圈了。
童瑤飾演的全職太太顧佳,江湖人稱:許子言媽媽、散打教練、特級(jí)甜品師、情商管理專家、育兒專家、兒童心理學(xué)者、中國好閨蜜、頂級(jí)宮斗高手、幻山煙花公司幕后老。
為了保護(hù)兒子,手撕傷害兒子的人
為融入貴婦圈
掏家底也要買愛馬仕鴕鳥皮Kelly28
江疏影飾演的是奢侈品店的銷售王漫妮,妥妥的一名滬漂。演繹了目前社會(huì)上很多“社畜”的真實(shí)生活,生病了身邊照顧自己的人都沒有,只能一個(gè)人住院。
毛曉彤飾演的鐘曉芹是一個(gè)普通的上海小囡nan,她的婚姻看似穩(wěn)定,但與丈夫卻貌合神離,一個(gè)大大咧咧神經(jīng)大條,另一個(gè)沉默寡言、不愿溝通。
那么這部《三十而已》是怎么火起來的?
哪些點(diǎn)最戳中觀眾的心呢?
今天我們就來用數(shù)據(jù)帶你盤一盤。
01女性角色不斷霸屏
近幾年這類聚焦女性的影視劇層出不窮:
美劇方面
而今年夏天,屏幕上活躍的女性身影更是不少。前有《乘風(fēng)破浪的姐姐們》引發(fā)的全民討論,之后的國產(chǎn)劇《二十不惑》和《三十而已》不約而同把話題指向女性的年齡問題。
02《三十而已》怎么突然火了
一開始也許沒人想到,這樣一部聚焦女性角度的國產(chǎn)都市劇能在這個(gè)夏天徹底火了??吹桨俣戎笖?shù),對比同期播出也是圍繞女性話題的《二十不惑》,《三十而已》的熱度和搜索度都要高出很多,從7月17日首播起熱度就高居不下。
目前微博話題《三十而已》閱讀量達(dá)到42.2億,討論達(dá)到148.8萬。該劇也頻頻霸占微博熱搜,幾乎更新一集就會(huì)有新的熱搜,讓你忍不住去追劇。
看劇中,你會(huì)折服于顧佳的強(qiáng)大家庭女性人設(shè);
劇中鐘曉芹的老公陳嶼是非常有爭議的角色。他在婚姻中對妻子不關(guān)心不溝通的態(tài)度讓很多人氣憤不已,一度微博話題被#陳嶼氣死#還上了熱搜。
甚至還有像“眾盼芹離”這樣的詞都出來了。
03《三十而已》中是什么最戳中觀眾的心?
1豆瓣數(shù)據(jù)
接著我們分析了豆瓣的短評(píng)數(shù)據(jù)。目前這部劇豆瓣上共有4萬2千余人進(jìn)行評(píng)分,分?jǐn)?shù)為8分。在國產(chǎn)劇中是很不錯(cuò)的成績了。
在評(píng)分方面,我們以其中500條數(shù)據(jù)為代表。
評(píng)論中提到最多的主演
我們進(jìn)行排序發(fā)現(xiàn)位居首位的是王漫妮,然后是顧佳和鐘曉芹。
豆瓣小組主演話題熱度
對比一下在《三十而已》的豆瓣小組里,討論話題度最高的就屬陳嶼了。
豆瓣評(píng)論詞云
豆瓣評(píng)論中主要圍繞的關(guān)鍵詞有"女性"、"劇情"、"喜歡"等方面。演員中"江疏影"、"童瑤"也被多次提到。
2騰訊視頻彈幕
接下來我們還分析整理了騰訊視頻彈幕數(shù)據(jù),目前共出了 15集,共整理了271049條彈幕。
首先,看到用戶在發(fā)彈幕時(shí)最喜歡選用的角色標(biāo)簽排名:
用戶喜歡用的彈幕角色
其中王漫妮排名第一,顧佳、鐘曉芹分別位居二三。這方面與豆瓣一致。男性角色排名是陳嶼以及許幻山。
再看到不同角色的彈幕詞云:
王漫妮彈幕詞云
江疏影飾演的王漫妮討論度很高,這也與演員的演技和本身的人氣是分不開的。氣質(zhì)這塊拿捏的死死的,而且作為奢侈品店銷售,王漫妮在話術(shù)和專業(yè)度上也讓人感覺很真實(shí)。
顧佳彈幕詞云
下面是童瑤飾演的全職太太顧佳。顧佳諧音這個(gè)名字照顧家庭,不僅要照顧孩子,把家里打理的井井有條,還有扶持老公的煙花公司,這個(gè)女人實(shí)在是太不一般了。關(guān)鍵詞中 "厲害"、"聰明"、"完美"被多次提到。
鐘曉芹彈幕詞云
鐘曉芹作為普通的上海本地小姑娘,性格"單純可愛"。而面對一點(diǎn)也不善解人意的老公,彈幕中感嘆"怎么還不離婚"的也特別多。
陳嶼彈幕詞云
陳嶼和許幻山兩個(gè)丈夫都有各自的問題。陳嶼性格冷漠,關(guān)心自己養(yǎng)的魚勝過老婆。
許幻山彈幕詞云
許幻山是純粹的煙花設(shè)計(jì)藝術(shù)家,在公司運(yùn)營方面顯得"幼稚",不懂"人情世故",這些方面還真不如他的老婆顧佳。
04如何用Python獲取彈幕數(shù)據(jù)
我們使用Python獲取并分析了《三十而已》的騰訊彈幕數(shù)據(jù),來分析看看哪個(gè)角色最受歡迎。分析流程分為以下幾步:
1 數(shù)據(jù)讀入
首先導(dǎo)入所需包。
# 導(dǎo)入庫 import os import jieba import numpy as np import pandas as pd from pyecharts.charts import Bar, Pie, Line, WordCloud, Page from pyecharts import options as opts from pyecharts.globals import SymbolType import stylecloud from IPython.display import Image # 用于在jupyter lab中顯示本地圖
然后使用pandas循環(huán)讀取數(shù)據(jù)。
# 讀入數(shù)據(jù) data_list = os.listdir('../data/') df_all = pd.DataFrame() for i in data_list: # 判斷 if i.split('.')[-1] == 'csv': df_one = pd.read_csv(f'../data/{i}', engine='python', encoding='utf-8', index_col=0) df_all = df_all.append(df_one, ignore_index=False) df_all.info()
pandas.core.frame.dataframe'> Int64Index: 271049 entries, 0 to 17637 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 episodes 271049 non-null int64 1 comment_id 271049 non-null int64 2 oper_name 139035 non-null object 3 vip_degree 271049 non-null int64 4 content 271049 non-null object 5 time_point 271049 non-null int64 6 up_count 271049 non-null int64 dtypes: int64(5), object(2) memory usage: 16.5+ MB pandas.core.frame.dataframe'>
此次一共獲取了15集2271049條彈幕數(shù)據(jù),每集平均18069條,按照每集平均45分鐘計(jì)算,每分鐘平均401條彈幕,數(shù)據(jù)預(yù)覽如下:
豆瓣數(shù)據(jù)# 提取數(shù)據(jù) pattern = r'(王漫妮\s*|鐘曉芹\s*|顧佳\s*|陳嶼\s*|許幻山\s*|颯颯\s*|浪浪\s*):.*' df_all['danmu_role'] = df_all['content'].str.extract(pattern)[0].str.strip() # 定義函數(shù) def transform_name(x): if x=='王漫妮' or x=='顧佳' or x=='鐘曉芹' or x=='陳嶼' or x=='許幻山' or x=='颯颯' or x=='浪浪': return 'VIP用戶' elif x=='NaN': return '未知用戶' else: return '普通用戶' df_all['danmu_level'] = df_all['danmu_role'].apply(transform_name) df_all.head()
2 數(shù)據(jù)預(yù)處理
此處對彈幕角色和VIP用戶進(jìn)行處理。
豆瓣數(shù)據(jù)# 提取數(shù)據(jù) pattern = r'(王漫妮\s*|鐘曉芹\s*|顧佳\s*|陳嶼\s*|許幻山\s*|颯颯\s*|浪浪\s*):.*' df_all['danmu_role'] = df_all['content'].str.extract(pattern)[0].str.strip() # 定義函數(shù) def transform_name(x): if x=='王漫妮' or x=='顧佳' or x=='鐘曉芹' or x=='陳嶼' or x=='許幻山' or x=='颯颯' or x=='浪浪': return 'VIP用戶' elif x=='NaN': return '未知用戶' else: return '普通用戶' df_all['danmu_level'] = df_all['danmu_role'].apply(transform_name) df_all.head()
level_num = df_all['danmu_level'].value_counts() data_pair = [list(z) for z in zip(level_num.index.tolist(), level_num.values.tolist())] # 繪制餅圖 pie1 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px')) pie1.add('', data_pair, radius=['35%', '60%']) pie1.set_global_opts(title_opts=opts.TitleOpts(title='彈幕發(fā)送人群等級(jí)分布'), legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%')) pie1.set_series_opts(label_opts=opts.LabelOpts(formatter=":geybsqlxm7mc%")) pie1.set_colors(['#6FB27C', '#FFAF34']) pie1.render()
role_num = df_all['danmu_role'].value_counts() role_num.drop(['颯颯', '浪浪'], inplace=True) # 柱形圖 bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px')) bar1.add_xaxis(role_num.index.tolist()) bar1.add_yaxis("", role_num.values.tolist(), category_gap='5%') bar1.set_global_opts(title_opts=opts.TitleOpts(title="VIP用戶最喜歡使用的彈幕角色"), visualmap_opts=opts.VisualMapOpts(max_=21027), ) bar1.render()
content_series1 = df_all[df_all.content.str.replace(pattern, '').str.contains('漫妮|疏影')]['content'] text1 = get_cut_words(content_series1) # 繪制詞云圖 stylecloud.gen_stylecloud(text=' '.join(text1), max_words=1000, collocations=False, font_path=r'?C:\Windows\Fonts\msyh.ttc', icon_name='fas fa-heart', size=653, output_name='./html/彈幕角色王漫妮-詞云圖.png')
結(jié)語:
一直以來在世俗的眼光下,婚姻、事業(yè)、家庭,是30+女性繞不開的話題。年過三十,不是結(jié)婚生子,就是在結(jié)婚生子的路上,但對于沒有結(jié)婚的很可能被稱“大齡剩女”。
近年來,關(guān)于女性年齡的討論更是被推到了風(fēng)口浪尖。綜藝《浪姐》播出后,看到一位位30+的女嘉賓在舞臺(tái)上"興風(fēng)作浪",彈幕中有女生留言“好像沒那么害怕變老了“而《三十而已》更是展現(xiàn)了30+女性的不同生活狀態(tài)和機(jī)遇,其實(shí)女性的人生,不應(yīng)該被年齡所定義。
三十而已,年華正好!
無論哪個(gè)年齡階段都有不同的精彩!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10