
CDA數(shù)據(jù)分析師 出品
作者:Mika
數(shù)據(jù):真達
后期:澤龍
【導(dǎo)語】:這幾天吃的最多的就屬騰訊狀告老干媽的瓜了,事件頻頻反轉(zhuǎn),讓網(wǎng)友們在瓜地里吃都吃不過來。今天我們就來用數(shù)據(jù)聊一聊。Python技術(shù)分析請看第四部分。
Show me data,用數(shù)據(jù)說話
今天我們聊一聊 騰訊老干媽這場“逗鵝冤”
點擊下方視頻,先睹為快:
這幾天吃的最多的就屬騰訊狀告老干媽的瓜了,事件頻頻反轉(zhuǎn),讓網(wǎng)友們在瓜地里吃都吃不過來。
一邊是財大氣粗的鵝廠,另一邊是國內(nèi)最火辣的“國民女神”,看似毫無交集的雙方又是怎么一回事呢?
事情是這樣的,6 月 30 日,有消息稱,騰訊把老干媽給告了!理由是老干媽拖欠騰訊廣告費,總額約 1600w。吃瓜群眾一片嘩然,那個女人竟然吃霸王餐!
誰知道,不到一天,這件事情就了反轉(zhuǎn)。6月30日晚間,老干媽聲稱從沒和騰訊合作過,騰訊被騙了,還嚴肅地發(fā)了個聲明,并幫騰訊報了警。
一時間,鵝說鵝有理,媽說媽有理。
接著7月1日,貴陽警方也發(fā)布通報,概括一下就是:3 個騙子為了倒賣騰訊游戲禮包碼,冒充老干媽的市場人員與騰訊簽了合同。
消息出來,網(wǎng)友們都驚了,騰訊居然有被騙的一天?
與此同時騰訊的公關(guān)也沒閑著,開始一系列雷厲風行的自黑操作,還表示要一千瓶老干媽全網(wǎng)尋騙子,老干媽也是迅速上架1000瓶大客戶組合裝辣椒醬,就是這么霸氣。
那這次騰訊都有哪些自黑操作?
老干媽的辣椒到底香不香?
今天我們就用數(shù)據(jù)來盤一盤。
主要從以下幾點展開:
“吃了假辣椒醬的憨憨企鵝” 官方自黑最為致命
辣椒醬又香了!這些年乘風破浪的老干媽
吃了這么多年的老干媽,究竟哪種口味最好吃?
教你用Python分析B站“逗鵝冤”視頻數(shù)據(jù)
01“吃了假辣椒醬的憨憨企鵝”
官方自黑最為致命
騰訊的公關(guān)也沒閑著,一系列雷厲風行的自黑操作。先是于7月1日中午,騰訊官方在B站動態(tài)發(fā)布騰訊官方B站賬號發(fā)表動態(tài):“今天中午的辣椒醬突然不香了?!?
評論區(qū)馬上成了大廠們的狂歡區(qū), 各大品牌紛紛趕來嘲笑被騙的鵝廠,順便給自己打個廣告、蹭波熱度。
隔壁的阿里秉承著看熱鬧不嫌事大的原則,開始整起了活——希望天下無假章。
只有微信支付一臉惆悵,發(fā)出一聲感慨: 還是錯付了。
京東數(shù)科則是無情的哈哈哈,網(wǎng)易郵箱笑出豬叫。
騰訊自己也干脆破罐子破摔,用一千瓶老干媽作為網(wǎng)友提供線索的獎勵。
當晚,騰訊再發(fā)視頻自黑,承認自己就是那個吃了假辣椒醬的憨憨企鵝。目前截止到發(fā)稿,這條視頻在b站最高全站排名第三,播放量高達602.萬,共5.6萬條彈幕。
瞬時間,騰訊和老干媽這個事件一出,B站上也涌現(xiàn)出了很多相關(guān)視頻。
讓我們對數(shù)據(jù)進行進一步分析整理:
(Python分析B站視頻講解請看第四部分)
相關(guān)視頻發(fā)布時間分布
可以看到,當事件剛爆出的6月30日有31個視頻,不算多。到7月1日,有294個相關(guān)視頻,隨著進一步發(fā)酵升溫,7月2日已新發(fā)布593個視頻,而這一數(shù)據(jù)也還在增加。
那么這些衍生的視頻都屬于什么類型分區(qū)呢?
視頻分區(qū)分布
可以看到,生活區(qū)的最多,占比67.3%。其次知識類的占比18.65%。
這些視頻中哪些播放量最高?
播放量TOP10視頻
關(guān)于這個事件,騰訊官方發(fā)布的《我就是那個吃了假辣椒醬的憨憨企鵝》播放量最高,截止到發(fā)稿止,播放量已突破600萬次,果然官方自黑最為致命。然后是羅翔老師的《老干媽糾紛,公章很忙》,位居第二,從法律角度帶你硬核科普吃瓜。
視頻標題詞云
這些視頻都在說些啥?通過分析相關(guān)視頻標題詞云可以看到,關(guān)鍵字中除了"騰訊"、"老干媽"、"企鵝"、"逗鵝冤"、"辣椒醬"等都是圍繞的焦點。
02辣椒醬到底香不香?
這些年乘風破浪的老干媽
如果提到家家戶戶必備的調(diào)料神器,那老干媽絕對當之無愧。多年來一直不變的紅色包裝,擰開瓶蓋,麻辣紅油的香氣就四溢開來,火紅的辣椒中伴著或是豆豉、肉絲的醬料簡直是絕妙的下飯神器。
全國辣椒醬市場份額將近400億元,老干媽獨占了10%,可見老干媽在國人心中有著舉足輕重的地位。根據(jù)數(shù)據(jù)顯示,老干媽一天的銷售量為160萬瓶,2019年老干媽的銷售額突破50億元,15年之內(nèi)老干媽的生產(chǎn)總值增加了80多倍。
近年來,老干媽也是各種玩跨界營銷:
2018年9月,紐約時裝周上,老干媽衛(wèi)衣亮相T臺引關(guān)注。
聯(lián)手《男人裝》,以“火辣教母”為噱頭推出定制禮盒。
以及定制手提袋:
還聯(lián)合聚劃算拍了視頻廣告,外形神似“老干媽”陶華碧的年輕女孩,配上“擰開干媽,看穿一切”的洗腦歌詞,再加上鬼畜舞蹈,瞬間吸睛無數(shù)。
雖然近年來,由于各種網(wǎng)紅辣醬輪番登場,老干媽的銷量不太如意。自從6月30日“逗鵝冤”事件爆發(fā)出來后,讓老干媽又重新活了起來,銷量出現(xiàn)了大幅度突破,有種”大圣歸來“的感覺。老干媽一躍成為了近期飆升最快的店鋪。網(wǎng)友感嘆:老干媽又香了。
03吃了這么多年的老干媽
究竟哪種口味最好吃?
那么吃了這么多年的老干媽,究竟哪種口味最好吃呢?我們分析了老干媽天貓旗艦店的數(shù)據(jù)。分析淘寶數(shù)據(jù)的方法,我們之前有講到,歡迎回顧之前的文章:
Python告訴你:粽子甜咸之爭誰勝出?吃貨最愛買誰家的粽子?
首先看到價格:
老干媽商品價格分布
在售價方面,老干媽辣醬既有單瓶銷售的,也有幾瓶的組合裝。可以看到其中30元以內(nèi)的產(chǎn)品是最多的,占比近一半,為53.26%。其次30-50元的位30.43%。
商品標題詞云
接下來看到商品的標題,
可以看到除了經(jīng)典的"老干媽風味"、"辣椒醬"、"香辣"、"豆豉"、"拌面"等都是常常出現(xiàn)的詞。
最后看到最關(guān)鍵的,那種口味最受歡迎呢?
不同口味銷量分布
說道老干媽的口味,那可就多了。除了最熟悉的風味豆豉,還有風味油辣椒、風味辣子雞、辣豆瓣、干煸肉絲等十多種口味。當中哪些口味最受青睞呢?
根據(jù)老干媽天貓旗艦店的銷售數(shù)據(jù),讓我們看到銷量口味排名圖:
其中銷的最好的就是風味雞這款啦,銷量遙遙領(lǐng)先。之后第二名的是牛肉末豆豉這款。香菇和香辣菜分別位居三、四名。之后經(jīng)典的風味豆豉和干煸肉絲分別為第五、第六。
那么哪款老干媽又是你的最愛呢?歡迎留言告訴我們哦~
04教你用Python分析
B站視頻數(shù)據(jù)
最后我們看下如何分析B站的視頻數(shù)據(jù)。
回復(fù)關(guān)鍵字“老干媽”
獲取詳細數(shù)據(jù)代碼
我們使用Python獲取了B站上關(guān)于騰訊-老干媽相關(guān)的視頻數(shù)據(jù),進行了數(shù)據(jù)分析。
首先導(dǎo)入所需庫,其中pandas用于數(shù)據(jù)讀入和數(shù)據(jù)清洗,pyecharts用于數(shù)據(jù)可視化,stylecloud用于繪制詞云圖。
# 導(dǎo)入包
import pandas as pd
import jieba
import re
from pyecharts.charts import Bar, Line, Pie, Map, Page
from pyecharts import options as opts
from pyecharts.globals import SymbolType, WarningType
WarningType.ShowWarning = False
import stylecloud
from IPython.display import Image # 用于在jupyter lab中顯示本地圖片
1. 數(shù)據(jù)讀入
首先讀入數(shù)據(jù)。
# 讀入數(shù)據(jù)
df = pd.read_excel('../data/B站分區(qū)視頻7.03.xlsx')
df.head()
去重之后查看一下數(shù)據(jù)集的大小,一共有1222條數(shù)據(jù)。
# 去重
df = df.drop_duplicates()
# 刪除列
df.drop('video_url', axis=1. inplace=True)
df.info()
Int64Index: 1222 entries, 0 to 1406
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 region 1222 non-null object
1 title 1222 non-null object
2 upload_time 1222 non-null object
3 view_num 1222 non-null object
4 up_author 1222 non-null object
dtypes: object(5)
memory usage: 57.3+ KB
2. 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理部分主要進行以下部分工作:
view_num:提取數(shù)值和單位,轉(zhuǎn)換為數(shù)值型;
篩選6.30~7.03數(shù)據(jù)
# 提取數(shù)值
df['num'] = df['view_num'].str.extract('(\d+.*\d+)').astype('float')
# 提取單位
df['unit'] = df['view_num'].str.extract('([\u4e00-\u9fa5]+)')
df['unit'] = df['unit'].replace('萬', 10000).replace(np.nan, 1)
# 計算乘積
df['true_num'] = df['num'] * df['unit']
# 刪除列
df.drop('view_num', axis=1. inplace=True)
# 篩選時間
pattern = re.compile('2020-06-30|2020-07-01|2020-07-02|2020-07-03')
df = df[df.upload_time.str.contains(pattern)]
我們針對數(shù)據(jù)進行描述性統(tǒng)計分析,探索一下問題:
發(fā)布時間和熱度
不同分區(qū)的發(fā)布數(shù)量
不同分區(qū)的播放量表現(xiàn)
最高播放的Top10視頻
標題詞云圖。
3.1 發(fā)布時間和熱度
time_num = df.upload_time.value_counts().sort_index()
time_num
2020-06-30 31
2020-07-01 294
2020-07-02 593
2020-07-03 235
Name: upload_time, dtype: int64
# 條形圖
bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
bar1.add_xaxis(time_num.index.tolist())
bar1.add_yaxis('', time_num.values.tolist())
bar1.set_global_opts(title_opts=opts.TitleOpts(title='視頻發(fā)布時間段分布'),
visualmap_opts=opts.VisualMapOpts(max_=675),
)
bar1.render()
3.2 不同分區(qū)的發(fā)布數(shù)量
region_num = df.region.value_counts()
region_num
生活 776
知識 215
游戲 68
鬼畜 61
娛樂 33
Name: region, dtype: int64
data_pair = [list(z) for z in zip(region_num.index.tolist(), region_num.values.tolist())]
# 繪制餅圖
pie1 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px'))
pie1.add('', data_pair, radius=['35%', '60%'])
pie1.set_global_opts(title_opts=opts.TitleOpts(title='B站不同分區(qū)的視頻發(fā)布數(shù)量'),
legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%'))
pie1.set_series_opts(label_opts=opts.LabelOpts(formatter=":geybsqlxm7mc%"))
pie1.set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8'])
pie1.render()
3.3 不同分區(qū)的播放量表現(xiàn)
region_view = df.groupby('region')['true_num'].sum()
region_view = region_view.sort_values(ascending=False)
region_view
region
生活 12760197.0
知識 7167597.0
鬼畜 1382580.0
游戲 792650.0
娛樂 53831.0
Name: true_num, dtype: float64
# 條形圖
bar2 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
bar2.add_xaxis(region_view.index.tolist())
bar2.add_yaxis('', region_view.values.tolist())
bar2.set_global_opts(title_opts=opts.TitleOpts(title='B站不同分區(qū)的視頻播放總量'),
visualmap_opts=opts.VisualMapOpts(max_=10837810.0),
)
bar2.render()
3.4 最高播放的Top10
# 最多播放top10
view_top10 = df.sort_values('true_num', ascending=False).head(10)[['title', 'true_num']]
view_top10 = view_top10.sort_values('true_num')
view_top10
# 柱形圖
bar3 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
bar3.add_xaxis(view_top10.title.values.tolist())
bar3.add_yaxis('', view_top10.true_num.values.tolist())
bar3.set_global_opts(title_opts=opts.TitleOpts(title='B站播放數(shù)量Top10視頻'),
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(position='inside')),
visualmap_opts=opts.VisualMapOpts(max_=5130000.0),
)
bar3.set_series_opts(label_opts=opts.LabelOpts(position='right'))
bar3.reversal_axis()
bar3.render()
3.5 標題詞云圖
# 繪制詞云圖
stylecloud.gen_stylecloud(text=' '.join(text), # text為分詞后的字符串
collocations=False,
font_path=r'?C:\Windows\Fonts\msyh.ttc',
icon_name='fas fa-bell',
size=653.
output_name='./詞云圖/B站分區(qū)視頻標題詞云圖.png')
Image(filename='./詞云圖/B站分區(qū)視頻標題詞云圖.png')
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03