
CDA數(shù)據(jù)分析師 出品
作者:Mika
數(shù)據(jù):真達(dá)
后期:澤龍
【導(dǎo)語(yǔ)】:這幾天吃的最多的就屬騰訊狀告老干媽的瓜了,事件頻頻反轉(zhuǎn),讓網(wǎng)友們?cè)诠系乩锍远汲圆贿^(guò)來(lái)。今天我們就來(lái)用數(shù)據(jù)聊一聊。Python技術(shù)分析請(qǐng)看第四部分。
Show me data,用數(shù)據(jù)說(shuō)話
今天我們聊一聊 騰訊老干媽這場(chǎng)“逗鵝冤”
點(diǎn)擊下方視頻,先睹為快:
這幾天吃的最多的就屬騰訊狀告老干媽的瓜了,事件頻頻反轉(zhuǎn),讓網(wǎng)友們?cè)诠系乩锍远汲圆贿^(guò)來(lái)。
一邊是財(cái)大氣粗的鵝廠,另一邊是國(guó)內(nèi)最火辣的“國(guó)民女神”,看似毫無(wú)交集的雙方又是怎么一回事呢?
事情是這樣的,6 月 30 日,有消息稱,騰訊把老干媽給告了!理由是老干媽拖欠騰訊廣告費(fèi),總額約 1600w。吃瓜群眾一片嘩然,那個(gè)女人竟然吃霸王餐!
誰(shuí)知道,不到一天,這件事情就了反轉(zhuǎn)。6月30日晚間,老干媽聲稱從沒(méi)和騰訊合作過(guò),騰訊被騙了,還嚴(yán)肅地發(fā)了個(gè)聲明,并幫騰訊報(bào)了警。
一時(shí)間,鵝說(shuō)鵝有理,媽說(shuō)媽有理。
接著7月1日,貴陽(yáng)警方也發(fā)布通報(bào),概括一下就是:3 個(gè)騙子為了倒賣騰訊游戲禮包碼,冒充老干媽的市場(chǎng)人員與騰訊簽了合同。
消息出來(lái),網(wǎng)友們都驚了,騰訊居然有被騙的一天?
與此同時(shí)騰訊的公關(guān)也沒(méi)閑著,開(kāi)始一系列雷厲風(fēng)行的自黑操作,還表示要一千瓶老干媽全網(wǎng)尋騙子,老干媽也是迅速上架1000瓶大客戶組合裝辣椒醬,就是這么霸氣。
那這次騰訊都有哪些自黑操作?
老干媽的辣椒到底香不香?
今天我們就用數(shù)據(jù)來(lái)盤一盤。
主要從以下幾點(diǎn)展開(kāi):
“吃了假辣椒醬的憨憨企鵝” 官方自黑最為致命
辣椒醬又香了!這些年乘風(fēng)破浪的老干媽
吃了這么多年的老干媽,究竟哪種口味最好吃?
教你用Python分析B站“逗鵝冤”視頻數(shù)據(jù)
01“吃了假辣椒醬的憨憨企鵝”
官方自黑最為致命
騰訊的公關(guān)也沒(méi)閑著,一系列雷厲風(fēng)行的自黑操作。先是于7月1日中午,騰訊官方在B站動(dòng)態(tài)發(fā)布騰訊官方B站賬號(hào)發(fā)表動(dòng)態(tài):“今天中午的辣椒醬突然不香了?!?
評(píng)論區(qū)馬上成了大廠們的狂歡區(qū), 各大品牌紛紛趕來(lái)嘲笑被騙的鵝廠,順便給自己打個(gè)廣告、蹭波熱度。
隔壁的阿里秉承著看熱鬧不嫌事大的原則,開(kāi)始整起了活——希望天下無(wú)假章。
只有微信支付一臉惆悵,發(fā)出一聲感慨: 還是錯(cuò)付了。
京東數(shù)科則是無(wú)情的哈哈哈,網(wǎng)易郵箱笑出豬叫。
騰訊自己也干脆破罐子破摔,用一千瓶老干媽作為網(wǎng)友提供線索的獎(jiǎng)勵(lì)。
當(dāng)晚,騰訊再發(fā)視頻自黑,承認(rèn)自己就是那個(gè)吃了假辣椒醬的憨憨企鵝。目前截止到發(fā)稿,這條視頻在b站最高全站排名第三,播放量高達(dá)602.萬(wàn),共5.6萬(wàn)條彈幕。
瞬時(shí)間,騰訊和老干媽這個(gè)事件一出,B站上也涌現(xiàn)出了很多相關(guān)視頻。
讓我們對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析整理:
(Python分析B站視頻講解請(qǐng)看第四部分)
相關(guān)視頻發(fā)布時(shí)間分布
可以看到,當(dāng)事件剛爆出的6月30日有31個(gè)視頻,不算多。到7月1日,有294個(gè)相關(guān)視頻,隨著進(jìn)一步發(fā)酵升溫,7月2日已新發(fā)布593個(gè)視頻,而這一數(shù)據(jù)也還在增加。
那么這些衍生的視頻都屬于什么類型分區(qū)呢?
視頻分區(qū)分布
可以看到,生活區(qū)的最多,占比67.3%。其次知識(shí)類的占比18.65%。
這些視頻中哪些播放量最高?
播放量TOP10視頻
關(guān)于這個(gè)事件,騰訊官方發(fā)布的《我就是那個(gè)吃了假辣椒醬的憨憨企鵝》播放量最高,截止到發(fā)稿止,播放量已突破600萬(wàn)次,果然官方自黑最為致命。然后是羅翔老師的《老干媽糾紛,公章很忙》,位居第二,從法律角度帶你硬核科普吃瓜。
視頻標(biāo)題詞云
這些視頻都在說(shuō)些啥?通過(guò)分析相關(guān)視頻標(biāo)題詞云可以看到,關(guān)鍵字中除了"騰訊"、"老干媽"、"企鵝"、"逗鵝冤"、"辣椒醬"等都是圍繞的焦點(diǎn)。
02辣椒醬到底香不香?
這些年乘風(fēng)破浪的老干媽
如果提到家家戶戶必備的調(diào)料神器,那老干媽絕對(duì)當(dāng)之無(wú)愧。多年來(lái)一直不變的紅色包裝,擰開(kāi)瓶蓋,麻辣紅油的香氣就四溢開(kāi)來(lái),火紅的辣椒中伴著或是豆豉、肉絲的醬料簡(jiǎn)直是絕妙的下飯神器。
全國(guó)辣椒醬市場(chǎng)份額將近400億元,老干媽獨(dú)占了10%,可見(jiàn)老干媽在國(guó)人心中有著舉足輕重的地位。根據(jù)數(shù)據(jù)顯示,老干媽一天的銷售量為160萬(wàn)瓶,2019年老干媽的銷售額突破50億元,15年之內(nèi)老干媽的生產(chǎn)總值增加了80多倍。
近年來(lái),老干媽也是各種玩跨界營(yíng)銷:
2018年9月,紐約時(shí)裝周上,老干媽衛(wèi)衣亮相T臺(tái)引關(guān)注。
聯(lián)手《男人裝》,以“火辣教母”為噱頭推出定制禮盒。
以及定制手提袋:
還聯(lián)合聚劃算拍了視頻廣告,外形神似“老干媽”陶華碧的年輕女孩,配上“擰開(kāi)干媽,看穿一切”的洗腦歌詞,再加上鬼畜舞蹈,瞬間吸睛無(wú)數(shù)。
雖然近年來(lái),由于各種網(wǎng)紅辣醬輪番登場(chǎng),老干媽的銷量不太如意。自從6月30日“逗鵝冤”事件爆發(fā)出來(lái)后,讓老干媽又重新活了起來(lái),銷量出現(xiàn)了大幅度突破,有種”大圣歸來(lái)“的感覺(jué)。老干媽一躍成為了近期飆升最快的店鋪。網(wǎng)友感嘆:老干媽又香了。
03吃了這么多年的老干媽
究竟哪種口味最好吃?
那么吃了這么多年的老干媽,究竟哪種口味最好吃呢?我們分析了老干媽天貓旗艦店的數(shù)據(jù)。分析淘寶數(shù)據(jù)的方法,我們之前有講到,歡迎回顧之前的文章:
Python告訴你:粽子甜咸之爭(zhēng)誰(shuí)勝出?吃貨最愛(ài)買誰(shuí)家的粽子?
首先看到價(jià)格:
老干媽商品價(jià)格分布
在售價(jià)方面,老干媽辣醬既有單瓶銷售的,也有幾瓶的組合裝??梢钥吹狡渲?0元以內(nèi)的產(chǎn)品是最多的,占比近一半,為53.26%。其次30-50元的位30.43%。
商品標(biāo)題詞云
接下來(lái)看到商品的標(biāo)題,
可以看到除了經(jīng)典的"老干媽風(fēng)味"、"辣椒醬"、"香辣"、"豆豉"、"拌面"等都是常常出現(xiàn)的詞。
最后看到最關(guān)鍵的,那種口味最受歡迎呢?
不同口味銷量分布
說(shuō)道老干媽的口味,那可就多了。除了最熟悉的風(fēng)味豆豉,還有風(fēng)味油辣椒、風(fēng)味辣子雞、辣豆瓣、干煸肉絲等十多種口味。當(dāng)中哪些口味最受青睞呢?
根據(jù)老干媽天貓旗艦店的銷售數(shù)據(jù),讓我們看到銷量口味排名圖:
其中銷的最好的就是風(fēng)味雞這款啦,銷量遙遙領(lǐng)先。之后第二名的是牛肉末豆豉這款。香菇和香辣菜分別位居三、四名。之后經(jīng)典的風(fēng)味豆豉和干煸肉絲分別為第五、第六。
那么哪款老干媽又是你的最愛(ài)呢?歡迎留言告訴我們哦~
04教你用Python分析
B站視頻數(shù)據(jù)
最后我們看下如何分析B站的視頻數(shù)據(jù)。
回復(fù)關(guān)鍵字“老干媽”
獲取詳細(xì)數(shù)據(jù)代碼
我們使用Python獲取了B站上關(guān)于騰訊-老干媽相關(guān)的視頻數(shù)據(jù),進(jìn)行了數(shù)據(jù)分析。
首先導(dǎo)入所需庫(kù),其中pandas用于數(shù)據(jù)讀入和數(shù)據(jù)清洗,pyecharts用于數(shù)據(jù)可視化,stylecloud用于繪制詞云圖。
# 導(dǎo)入包
import pandas as pd
import jieba
import re
from pyecharts.charts import Bar, Line, Pie, Map, Page
from pyecharts import options as opts
from pyecharts.globals import SymbolType, WarningType
WarningType.ShowWarning = False
import stylecloud
from IPython.display import Image # 用于在jupyter lab中顯示本地圖片
1. 數(shù)據(jù)讀入
首先讀入數(shù)據(jù)。
# 讀入數(shù)據(jù)
df = pd.read_excel('../data/B站分區(qū)視頻7.03.xlsx')
df.head()
去重之后查看一下數(shù)據(jù)集的大小,一共有1222條數(shù)據(jù)。
# 去重
df = df.drop_duplicates()
# 刪除列
df.drop('video_url', axis=1. inplace=True)
df.info()
Int64Index: 1222 entries, 0 to 1406
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 region 1222 non-null object
1 title 1222 non-null object
2 upload_time 1222 non-null object
3 view_num 1222 non-null object
4 up_author 1222 non-null object
dtypes: object(5)
memory usage: 57.3+ KB
2. 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理部分主要進(jìn)行以下部分工作:
view_num:提取數(shù)值和單位,轉(zhuǎn)換為數(shù)值型;
篩選6.30~7.03數(shù)據(jù)
# 提取數(shù)值
df['num'] = df['view_num'].str.extract('(\d+.*\d+)').astype('float')
# 提取單位
df['unit'] = df['view_num'].str.extract('([\u4e00-\u9fa5]+)')
df['unit'] = df['unit'].replace('萬(wàn)', 10000).replace(np.nan, 1)
# 計(jì)算乘積
df['true_num'] = df['num'] * df['unit']
# 刪除列
df.drop('view_num', axis=1. inplace=True)
# 篩選時(shí)間
pattern = re.compile('2020-06-30|2020-07-01|2020-07-02|2020-07-03')
df = df[df.upload_time.str.contains(pattern)]
我們針對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,探索一下問(wèn)題:
發(fā)布時(shí)間和熱度
不同分區(qū)的發(fā)布數(shù)量
不同分區(qū)的播放量表現(xiàn)
最高播放的Top10視頻
標(biāo)題詞云圖。
3.1 發(fā)布時(shí)間和熱度
time_num = df.upload_time.value_counts().sort_index()
time_num
2020-06-30 31
2020-07-01 294
2020-07-02 593
2020-07-03 235
Name: upload_time, dtype: int64
# 條形圖
bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
bar1.add_xaxis(time_num.index.tolist())
bar1.add_yaxis('', time_num.values.tolist())
bar1.set_global_opts(title_opts=opts.TitleOpts(title='視頻發(fā)布時(shí)間段分布'),
visualmap_opts=opts.VisualMapOpts(max_=675),
)
bar1.render()
3.2 不同分區(qū)的發(fā)布數(shù)量
region_num = df.region.value_counts()
region_num
生活 776
知識(shí) 215
游戲 68
鬼畜 61
娛樂(lè) 33
Name: region, dtype: int64
data_pair = [list(z) for z in zip(region_num.index.tolist(), region_num.values.tolist())]
# 繪制餅圖
pie1 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px'))
pie1.add('', data_pair, radius=['35%', '60%'])
pie1.set_global_opts(title_opts=opts.TitleOpts(title='B站不同分區(qū)的視頻發(fā)布數(shù)量'),
legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%'))
pie1.set_series_opts(label_opts=opts.LabelOpts(formatter=":geybsqlxm7mc%"))
pie1.set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8'])
pie1.render()
3.3 不同分區(qū)的播放量表現(xiàn)
region_view = df.groupby('region')['true_num'].sum()
region_view = region_view.sort_values(ascending=False)
region_view
region
生活 12760197.0
知識(shí) 7167597.0
鬼畜 1382580.0
游戲 792650.0
娛樂(lè) 53831.0
Name: true_num, dtype: float64
# 條形圖
bar2 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
bar2.add_xaxis(region_view.index.tolist())
bar2.add_yaxis('', region_view.values.tolist())
bar2.set_global_opts(title_opts=opts.TitleOpts(title='B站不同分區(qū)的視頻播放總量'),
visualmap_opts=opts.VisualMapOpts(max_=10837810.0),
)
bar2.render()
3.4 最高播放的Top10
# 最多播放top10
view_top10 = df.sort_values('true_num', ascending=False).head(10)[['title', 'true_num']]
view_top10 = view_top10.sort_values('true_num')
view_top10
# 柱形圖
bar3 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
bar3.add_xaxis(view_top10.title.values.tolist())
bar3.add_yaxis('', view_top10.true_num.values.tolist())
bar3.set_global_opts(title_opts=opts.TitleOpts(title='B站播放數(shù)量Top10視頻'),
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(position='inside')),
visualmap_opts=opts.VisualMapOpts(max_=5130000.0),
)
bar3.set_series_opts(label_opts=opts.LabelOpts(position='right'))
bar3.reversal_axis()
bar3.render()
3.5 標(biāo)題詞云圖
# 繪制詞云圖
stylecloud.gen_stylecloud(text=' '.join(text), # text為分詞后的字符串
collocations=False,
font_path=r'?C:\Windows\Fonts\msyh.ttc',
icon_name='fas fa-bell',
size=653.
output_name='./詞云圖/B站分區(qū)視頻標(biāo)題詞云圖.png')
Image(filename='./詞云圖/B站分區(qū)視頻標(biāo)題詞云圖.png')
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10