
如果說(shuō)最近最熱門(mén)的綜藝,那《乘風(fēng)破浪的姐姐》(下文簡(jiǎn)稱(chēng)《姐姐》)可謂實(shí)至名歸。30位出道多年的姐姐輩女藝人,一個(gè)個(gè)風(fēng)格各異、個(gè)性鮮明。她們將通過(guò)合宿生活與舞臺(tái)競(jìng)演,最終選出5位組成逆齡女團(tuán)。
《乘風(fēng)破浪的姐姐》就這樣突然定檔、突然播出、播出前無(wú)宣發(fā)的情況下爆了,一經(jīng)播出就搶占各大熱搜榜。
今天,我們帶大家就用
來(lái)盤(pán)一盤(pán)這些
主要從以下幾點(diǎn)展開(kāi):
乘風(fēng)破浪的姐姐?NO!是興風(fēng)作浪的姑奶奶
出道時(shí)長(zhǎng)十年起,這些姐姐們都有誰(shuí)?
豆瓣8.3分,姐姐們的實(shí)力妥妥的
Python分析9萬(wàn)條彈幕,誰(shuí)才是真正的C位?
01乘風(fēng)破浪的姐姐?
NO!是興風(fēng)作浪的姑奶奶
既然是選最特別的女團(tuán),哪些人參加自然是關(guān)注的焦點(diǎn)。寧?kù)o、伊能靜、鐘麗緹、張雨綺、萬(wàn)茜、黃圣依…光是聽(tīng)到這些選手的名字就讓人太期待了!
姐姐們很“任性”
不同于一般的女團(tuán)選秀,漂亮妹妹們都得聽(tīng)從節(jié)目組的安排,而這次的姐姐們普遍很“不服管教”,畢竟都是在自己領(lǐng)域出道多年的資深前輩,她們非常有底氣,知道自己想要什么。
節(jié)目組讓做自我介紹,寧?kù)o霸氣的回復(fù):“還要介紹我是誰(shuí)?那我這幾十年不是白干了?”
節(jié)目組導(dǎo)演讓伊能靜擋一下膝蓋,伊能靜說(shuō):“這是褲子,我擋不了。你配合我一下,別讓我配合你們”。
問(wèn)萬(wàn)茜為何來(lái)參加節(jié)目,萬(wàn)茜回答:“經(jīng)紀(jì)人逼我來(lái)的”。這也太真性情了吧,簡(jiǎn)直不是乘風(fēng)破浪的姐姐,而是興風(fēng)作浪的姑奶奶們呀。
端水大師——黃曉明
這些姐姐們,也讓在中餐廳里“我不要你覺(jué)得 我要我覺(jué)得”的霸道總裁黃教主秒變暖心的小明同學(xué)——“我不要你覺(jué)得,我要您覺(jué)得”人送稱(chēng)號(hào)端水大師,滿滿的求生欲。
憑實(shí)力挨罵——杜華
在點(diǎn)評(píng)環(huán)節(jié)中,作為評(píng)審之一杜華也是各種憑實(shí)力挨罵。依然以評(píng)選20多歲女團(tuán)的刻板標(biāo)準(zhǔn)評(píng)價(jià)姐姐們,讓不少觀眾都看得滿頭問(wèn)號(hào),越看越氣。
02出道時(shí)長(zhǎng)十年起,唱跳演樣樣精通
姐姐們到底有多強(qiáng)?
下面讓我們看到數(shù)據(jù)部分。我們搜集了百度百科和維基百科的選手?jǐn)?shù)據(jù)。
姐姐們年齡分布
先看到年齡分布,可以看到29-33這個(gè)年齡段的姐姐最多共有11位,占比36.67%。其次是34-37歲,共10位,占比33.33%。
姐姐們都來(lái)自哪兒?
然后是地區(qū)分布,姐姐們都來(lái)自哪里呢?其中來(lái)自湖南和上海的最多,各有五位。阿朵、萬(wàn)茜、劉蕓、沈夢(mèng)辰、孟佳都是我們湖南湘妹子。然后四川、遼寧、山東的各兩位。
姐姐們都是哪些職業(yè)
在職業(yè)方面呢,我們可以看到,她們大多數(shù)演員和歌手出身,藝人中身兼數(shù)職的情況比較普遍,30人中至少有17人身兼多職,其中13人既是演員、也是歌手。
初舞臺(tái)得分的關(guān)鍵因素
《乘風(fēng)破浪的姐姐》初評(píng)分?jǐn)?shù)由個(gè)人特質(zhì)、成團(tuán)潛力、聲樂(lè)表現(xiàn)力和舞臺(tái)表現(xiàn)構(gòu)成,每項(xiàng)25分,總分100分。
我們通過(guò)Python計(jì)算數(shù)值型變量之間的pearson相關(guān)系數(shù)。對(duì)于系數(shù)r的取值,根據(jù)經(jīng)驗(yàn)可將相關(guān)程度分為以下幾種情況,|r|>=0.8時(shí),可視為高相關(guān),0.5<=|r|<0.8.可視為中度相關(guān),0.3<=|r|<0.5時(shí),可視為低度相關(guān),|r|<0.3.可視為不相關(guān)。根據(jù)相關(guān)系數(shù)數(shù)值,在95%的置信程度水平情況下:
控制其他影響因素的情況下,個(gè)人特質(zhì)打分對(duì)初舞臺(tái)分?jǐn)?shù)的影響最大。
初評(píng)舞臺(tái)分?jǐn)?shù)和年齡、出道年數(shù)沒(méi)有顯著相關(guān)關(guān)系。
年齡和個(gè)人特質(zhì)、成團(tuán)潛力的分?jǐn)?shù)間存在低度負(fù)相關(guān)關(guān)系,年齡越大,個(gè)人特質(zhì)和成團(tuán)潛力的得分也就越低;
個(gè)人特質(zhì)和成團(tuán)潛力的打分之間存在高度正相關(guān),即兩者得分存在高則同高,低則同低的情況。
03豆瓣8.3分,姐姐們的實(shí)力妥妥的
目前這部綜藝在豆瓣的評(píng)分為8.3分,很不錯(cuò)的成績(jī),已有7萬(wàn)2千余人進(jìn)行評(píng)價(jià)。
豆瓣總體評(píng)分分布
看到具體評(píng)分分布,給出四星的最多,為38.2%;其次是5星 占比25%??磥?lái)觀眾普遍還是十分認(rèn)可姐姐們的表現(xiàn)的。
短評(píng)詞云圖
可以看到詞云主要圍繞的是"姐姐"、"節(jié)目"、"女團(tuán)"展開(kāi)。其中在需選手中寧?kù)o、萬(wàn)茜被提到的頻率最高。
當(dāng)然也有不少吐槽的點(diǎn),大家的吐槽主要集中在:
評(píng)委杜華:不公平;30+的女性歲月積淀了魅力,評(píng)審卻按照20歲女團(tuán)的標(biāo)準(zhǔn)來(lái);給丁當(dāng)打分真是要?dú)庹ā?
黃曉明:從霸道總裁秒慫變小明,讓人感覺(jué)尷尬不已
節(jié)目組:場(chǎng)景布置令人寒酸,攝影差,燈光差,布景差。
也有吐槽選手的
黃圣依:等黃圣依淘汰了我再改成五星,謝謝。
04Python分析9萬(wàn)條彈幕
誰(shuí)才是真正的C位一姐?
我們統(tǒng)計(jì)了芒果tv第一期的彈幕數(shù)據(jù),共94575條。
下面展示芒果Tv彈幕爬蟲(chóng)部分代碼,分析部分代碼暫略。數(shù)據(jù)獲取的具體思路如下:
分析網(wǎng)頁(yè),彈幕數(shù)據(jù)是動(dòng)態(tài)加載的,因此通過(guò)Chrome瀏覽器進(jìn)行抓包分析并獲取真實(shí)的URL請(qǐng)求地址;
使用selenium請(qǐng)求網(wǎng)頁(yè)數(shù)據(jù);
使用正則表達(dá)式re將文本中的HTML提取出來(lái),使用json進(jìn)行解析;
使用pandas進(jìn)行數(shù)據(jù)的保存。
1. 彈幕在哪里找?
打開(kāi)《乘風(fēng)破浪的姐姐》選取一集,觀看我們要抓取的彈幕,可以看出彈幕是在視頻播放之后才滾動(dòng)加載的,所以我們可以判斷視頻是通過(guò)JS異步加載的。
按照經(jīng)驗(yàn),我們切換到network-XHR下面查看,如下圖所示,很容易發(fā)現(xiàn)了彈幕請(qǐng)求的地址:
https://bullet-ws.hitv.com/bullet/2020/06/21/104556/8337559/0.json
其中:2020/06/21代表日期,104556和8337559參數(shù)每集不一樣,通過(guò)抓包獲取即可。
2. 獲取并解析數(shù)據(jù)
具體代碼如下:
# 導(dǎo)入包
import pandas as pd
import time
import re
import json
from selenium import webdriver
# 打開(kāi)Chrome(需配置webdriver)
browser = webdriver.Chrome()
def get_mgtv_danmu(month_num, day_num, num1. num2):
step = 1
df_all = pd.DataFrame()
while True:
try:
# 第一集URL
danmu_url = 'https://bullet-ws.hitv.com/bullet/2020/{}/{}/{}/{}/{}.json'.format(month_num, day_num, num1. num2. step)
# 打印進(jìn)度
print('正在獲取第{}頁(yè)的信息'.format(step))
step += 1
# 獲取彈幕
browser.get(danmu_url)
# 休眠3秒
time.sleep(3)
# 提取數(shù)據(jù)
pattern1 = re.compile(r'
')
pattern2 = re.compile(r'')
data1 = re.sub(pattern1. '', browser.page_source)
data2 = re.sub(pattern2. '', data1)
# 解析數(shù)據(jù)
js_data = json.loads(data2)
# 獲取數(shù)據(jù)
all_data = js_data['data']['items']
# id
danmu_id = [i.get('id') for i in all_data]
# uname
uname = [i.get('uname') for i in all_data]
# 內(nèi)容
content = [i.get('content') for i in all_data]
# 時(shí)間
danmu_time = [i.get('time') for i in all_data]
# 點(diǎn)贊
up_count = [i.get('v2_up_count') for i in all_data]
# 分鐘
danmu_minites = step-1
# 保存數(shù)據(jù)
df_one = pd.DataFrame({
'danmu_id': danmu_id,
'uname': uname,
'content': content,
'danmu_time': danmu_time,
'up_count': up_count,
'danmu_minites': danmu_minites
})
# 循環(huán)追加
df_all = df_all.append(df_one, ignore_index=True)
except Exception as e:
print(e)
print('沒(méi)有此頁(yè)面, 爬蟲(chóng)結(jié)束')
break
return df_all
if __name__ == '__main__':
#
df_1 = get_mgtv_danmu(month_num='06', day_num='21', num1=104556. num2=8337559)
獲取的數(shù)據(jù)以數(shù)據(jù)表的形式存儲(chǔ),如下所示:
df.head()
03 結(jié)論部分
選手彈幕熱度排名
在排名數(shù)據(jù)上,占據(jù)前四位的分別是寧?kù)o、萬(wàn)茜、吳昕和張雨綺。
下面,分別看到她們的個(gè)人彈幕詞云圖。
寧?kù)o-彈幕詞云
喜歡寧?kù)o的,都喜歡她那種強(qiáng)大的大姐大氣場(chǎng),感覺(jué)靜姐這哪里是來(lái)出道當(dāng)女團(tuán)的,明明是來(lái)選妃的。
萬(wàn)茜-彈幕詞云
再看到萬(wàn)茜,淡雅的性格配上努力勤奮換來(lái)的過(guò)硬實(shí)力,在節(jié)目里,萬(wàn)茜也堪稱(chēng)人氣王,除了觀眾愛(ài)她,姐姐們也都愛(ài)她。關(guān)于她的彈幕都是各種"喜歡"、"可愛(ài)"、"性格圈粉"等等。
吳昕-彈幕詞云
吳昕這次在節(jié)目中給了人眼前一亮的感覺(jué),不再是快樂(lè)家族中沒(méi)啥臺(tái)詞的小透明,從用心準(zhǔn)備的節(jié)目,到談吐性格都讓人感覺(jué)十分舒服,非常圈粉。
張雨綺-彈幕詞云
最后再看到張雨綺,她真的是反差萌擔(dān)當(dāng)了,以為是高冷霸總,結(jié)果卻是個(gè)可愛(ài)憨憨,從賽前采訪就開(kāi)始搞笑。帶來(lái)的節(jié)目是《粉紅色的回憶》,理由是這是自己唯一能唱完的歌,也是十分可愛(ài)了。
結(jié)語(yǔ):
這么多個(gè)性十足的姐姐們真是讓人愛(ài)了愛(ài)了,特別是《乘風(fēng)破浪的姐姐》的開(kāi)場(chǎng)旁白,非常讓人印象深刻:
三十而勵(lì)!三十而立!三十而驪!
30歲以后,人生的見(jiàn)證者越來(lái)越少,但還可以自我見(jiàn)證!
30歲以后,所有的可能性不斷褪卻,但還可以越過(guò)時(shí)間,越過(guò)自己!
不要輕易用年齡定義自己,只要有追逐夢(mèng)想的心,無(wú)論什么年齡段都有屬于自己的精彩!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10