
如果說最近最熱門的綜藝,那《乘風(fēng)破浪的姐姐》(下文簡稱《姐姐》)可謂實至名歸。30位出道多年的姐姐輩女藝人,一個個風(fēng)格各異、個性鮮明。她們將通過合宿生活與舞臺競演,最終選出5位組成逆齡女團。
《乘風(fēng)破浪的姐姐》就這樣突然定檔、突然播出、播出前無宣發(fā)的情況下爆了,一經(jīng)播出就搶占各大熱搜榜。
今天,我們帶大家就用
來盤一盤這些
主要從以下幾點展開:
乘風(fēng)破浪的姐姐?NO!是興風(fēng)作浪的姑奶奶
出道時長十年起,這些姐姐們都有誰?
豆瓣8.3分,姐姐們的實力妥妥的
Python分析9萬條彈幕,誰才是真正的C位?
01乘風(fēng)破浪的姐姐?
NO!是興風(fēng)作浪的姑奶奶
既然是選最特別的女團,哪些人參加自然是關(guān)注的焦點。寧靜、伊能靜、鐘麗緹、張雨綺、萬茜、黃圣依…光是聽到這些選手的名字就讓人太期待了!
姐姐們很“任性”
不同于一般的女團選秀,漂亮妹妹們都得聽從節(jié)目組的安排,而這次的姐姐們普遍很“不服管教”,畢竟都是在自己領(lǐng)域出道多年的資深前輩,她們非常有底氣,知道自己想要什么。
節(jié)目組讓做自我介紹,寧靜霸氣的回復(fù):“還要介紹我是誰?那我這幾十年不是白干了?”
節(jié)目組導(dǎo)演讓伊能靜擋一下膝蓋,伊能靜說:“這是褲子,我擋不了。你配合我一下,別讓我配合你們”。
問萬茜為何來參加節(jié)目,萬茜回答:“經(jīng)紀(jì)人逼我來的”。這也太真性情了吧,簡直不是乘風(fēng)破浪的姐姐,而是興風(fēng)作浪的姑奶奶們呀。
端水大師——黃曉明
這些姐姐們,也讓在中餐廳里“我不要你覺得 我要我覺得”的霸道總裁黃教主秒變暖心的小明同學(xué)——“我不要你覺得,我要您覺得”人送稱號端水大師,滿滿的求生欲。
憑實力挨罵——杜華
在點評環(huán)節(jié)中,作為評審之一杜華也是各種憑實力挨罵。依然以評選20多歲女團的刻板標(biāo)準(zhǔn)評價姐姐們,讓不少觀眾都看得滿頭問號,越看越氣。
02出道時長十年起,唱跳演樣樣精通
姐姐們到底有多強?
下面讓我們看到數(shù)據(jù)部分。我們搜集了百度百科和維基百科的選手?jǐn)?shù)據(jù)。
姐姐們年齡分布
先看到年齡分布,可以看到29-33這個年齡段的姐姐最多共有11位,占比36.67%。其次是34-37歲,共10位,占比33.33%。
姐姐們都來自哪兒?
然后是地區(qū)分布,姐姐們都來自哪里呢?其中來自湖南和上海的最多,各有五位。阿朵、萬茜、劉蕓、沈夢辰、孟佳都是我們湖南湘妹子。然后四川、遼寧、山東的各兩位。
姐姐們都是哪些職業(yè)
在職業(yè)方面呢,我們可以看到,她們大多數(shù)演員和歌手出身,藝人中身兼數(shù)職的情況比較普遍,30人中至少有17人身兼多職,其中13人既是演員、也是歌手。
初舞臺得分的關(guān)鍵因素
《乘風(fēng)破浪的姐姐》初評分?jǐn)?shù)由個人特質(zhì)、成團潛力、聲樂表現(xiàn)力和舞臺表現(xiàn)構(gòu)成,每項25分,總分100分。
我們通過Python計算數(shù)值型變量之間的pearson相關(guān)系數(shù)。對于系數(shù)r的取值,根據(jù)經(jīng)驗可將相關(guān)程度分為以下幾種情況,|r|>=0.8時,可視為高相關(guān),0.5<=|r|<0.8.可視為中度相關(guān),0.3<=|r|<0.5時,可視為低度相關(guān),|r|<0.3.可視為不相關(guān)。根據(jù)相關(guān)系數(shù)數(shù)值,在95%的置信程度水平情況下:
控制其他影響因素的情況下,個人特質(zhì)打分對初舞臺分?jǐn)?shù)的影響最大。
初評舞臺分?jǐn)?shù)和年齡、出道年數(shù)沒有顯著相關(guān)關(guān)系。
年齡和個人特質(zhì)、成團潛力的分?jǐn)?shù)間存在低度負(fù)相關(guān)關(guān)系,年齡越大,個人特質(zhì)和成團潛力的得分也就越低;
個人特質(zhì)和成團潛力的打分之間存在高度正相關(guān),即兩者得分存在高則同高,低則同低的情況。
03豆瓣8.3分,姐姐們的實力妥妥的
目前這部綜藝在豆瓣的評分為8.3分,很不錯的成績,已有7萬2千余人進行評價。
豆瓣總體評分分布
看到具體評分分布,給出四星的最多,為38.2%;其次是5星 占比25%。看來觀眾普遍還是十分認(rèn)可姐姐們的表現(xiàn)的。
短評詞云圖
可以看到詞云主要圍繞的是"姐姐"、"節(jié)目"、"女團"展開。其中在需選手中寧靜、萬茜被提到的頻率最高。
當(dāng)然也有不少吐槽的點,大家的吐槽主要集中在:
評委杜華:不公平;30+的女性歲月積淀了魅力,評審卻按照20歲女團的標(biāo)準(zhǔn)來;給丁當(dāng)打分真是要氣炸。
黃曉明:從霸道總裁秒慫變小明,讓人感覺尷尬不已
節(jié)目組:場景布置令人寒酸,攝影差,燈光差,布景差。
也有吐槽選手的
黃圣依:等黃圣依淘汰了我再改成五星,謝謝。
04Python分析9萬條彈幕
誰才是真正的C位一姐?
我們統(tǒng)計了芒果tv第一期的彈幕數(shù)據(jù),共94575條。
下面展示芒果Tv彈幕爬蟲部分代碼,分析部分代碼暫略。數(shù)據(jù)獲取的具體思路如下:
分析網(wǎng)頁,彈幕數(shù)據(jù)是動態(tài)加載的,因此通過Chrome瀏覽器進行抓包分析并獲取真實的URL請求地址;
使用selenium請求網(wǎng)頁數(shù)據(jù);
使用正則表達式re將文本中的HTML提取出來,使用json進行解析;
使用pandas進行數(shù)據(jù)的保存。
1. 彈幕在哪里找?
打開《乘風(fēng)破浪的姐姐》選取一集,觀看我們要抓取的彈幕,可以看出彈幕是在視頻播放之后才滾動加載的,所以我們可以判斷視頻是通過JS異步加載的。
按照經(jīng)驗,我們切換到network-XHR下面查看,如下圖所示,很容易發(fā)現(xiàn)了彈幕請求的地址:
https://bullet-ws.hitv.com/bullet/2020/06/21/104556/8337559/0.json
其中:2020/06/21代表日期,104556和8337559參數(shù)每集不一樣,通過抓包獲取即可。
2. 獲取并解析數(shù)據(jù)
具體代碼如下:
# 導(dǎo)入包
import pandas as pd
import time
import re
import json
from selenium import webdriver
# 打開Chrome(需配置webdriver)
browser = webdriver.Chrome()
def get_mgtv_danmu(month_num, day_num, num1. num2):
step = 1
df_all = pd.DataFrame()
while True:
try:
# 第一集URL
danmu_url = 'https://bullet-ws.hitv.com/bullet/2020/{}/{}/{}/{}/{}.json'.format(month_num, day_num, num1. num2. step)
# 打印進度
print('正在獲取第{}頁的信息'.format(step))
step += 1
# 獲取彈幕
browser.get(danmu_url)
# 休眠3秒
time.sleep(3)
# 提取數(shù)據(jù)
pattern1 = re.compile(r'
')
pattern2 = re.compile(r'')
data1 = re.sub(pattern1. '', browser.page_source)
data2 = re.sub(pattern2. '', data1)
# 解析數(shù)據(jù)
js_data = json.loads(data2)
# 獲取數(shù)據(jù)
all_data = js_data['data']['items']
# id
danmu_id = [i.get('id') for i in all_data]
# uname
uname = [i.get('uname') for i in all_data]
# 內(nèi)容
content = [i.get('content') for i in all_data]
# 時間
danmu_time = [i.get('time') for i in all_data]
# 點贊
up_count = [i.get('v2_up_count') for i in all_data]
# 分鐘
danmu_minites = step-1
# 保存數(shù)據(jù)
df_one = pd.DataFrame({
'danmu_id': danmu_id,
'uname': uname,
'content': content,
'danmu_time': danmu_time,
'up_count': up_count,
'danmu_minites': danmu_minites
})
# 循環(huán)追加
df_all = df_all.append(df_one, ignore_index=True)
except Exception as e:
print(e)
print('沒有此頁面, 爬蟲結(jié)束')
break
return df_all
if __name__ == '__main__':
#
df_1 = get_mgtv_danmu(month_num='06', day_num='21', num1=104556. num2=8337559)
獲取的數(shù)據(jù)以數(shù)據(jù)表的形式存儲,如下所示:
df.head()
03 結(jié)論部分
選手彈幕熱度排名
在排名數(shù)據(jù)上,占據(jù)前四位的分別是寧靜、萬茜、吳昕和張雨綺。
下面,分別看到她們的個人彈幕詞云圖。
寧靜-彈幕詞云
喜歡寧靜的,都喜歡她那種強大的大姐大氣場,感覺靜姐這哪里是來出道當(dāng)女團的,明明是來選妃的。
萬茜-彈幕詞云
再看到萬茜,淡雅的性格配上努力勤奮換來的過硬實力,在節(jié)目里,萬茜也堪稱人氣王,除了觀眾愛她,姐姐們也都愛她。關(guān)于她的彈幕都是各種"喜歡"、"可愛"、"性格圈粉"等等。
吳昕-彈幕詞云
吳昕這次在節(jié)目中給了人眼前一亮的感覺,不再是快樂家族中沒啥臺詞的小透明,從用心準(zhǔn)備的節(jié)目,到談吐性格都讓人感覺十分舒服,非常圈粉。
張雨綺-彈幕詞云
最后再看到張雨綺,她真的是反差萌擔(dān)當(dāng)了,以為是高冷霸總,結(jié)果卻是個可愛憨憨,從賽前采訪就開始搞笑。帶來的節(jié)目是《粉紅色的回憶》,理由是這是自己唯一能唱完的歌,也是十分可愛了。
結(jié)語:
這么多個性十足的姐姐們真是讓人愛了愛了,特別是《乘風(fēng)破浪的姐姐》的開場旁白,非常讓人印象深刻:
三十而勵!三十而立!三十而驪!
30歲以后,人生的見證者越來越少,但還可以自我見證!
30歲以后,所有的可能性不斷褪卻,但還可以越過時間,越過自己!
不要輕易用年齡定義自己,只要有追逐夢想的心,無論什么年齡段都有屬于自己的精彩!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03