
沒有可對(duì)比性的數(shù)據(jù)分析就是耍流氓
在數(shù)據(jù)分析的對(duì)比、細(xì)分、溯源六字箴言中,對(duì)比占據(jù)著重要的地位,也是最簡單的數(shù)據(jù)分析方法之一,可以說無對(duì)比不分析,但是沒有可對(duì)比性的對(duì)比一定是耍流氓。
沒有可對(duì)比性的案例無處不在,在《統(tǒng)計(jì)數(shù)字會(huì)撒謊》一書中提到一個(gè)案例,在美國和西班牙交戰(zhàn)期間,美國海軍的死亡率是9‰,而同時(shí)期紐約居民的死亡率是16‰,于是美國海軍征兵海報(bào)口號(hào)就是:來參軍吧,參軍更安全!
這個(gè)案例問題在于9‰和16‰這兩個(gè)數(shù)據(jù)沒有可對(duì)比性,當(dāng)兵的人群都是年輕力壯的,一般只會(huì)戰(zhàn)死,而紐約居民卻是各式各樣,有自然死亡的、老弱病殘而死的、交通事故致死的等。
之前正好看見一條新聞,題目就是《建筑工地民工月薪最高1.4萬秒殺白領(lǐng)》。這顯然是標(biāo)題黨干的,用民工最高工資和白領(lǐng)對(duì)比這也是沒有對(duì)比性的。
數(shù)據(jù)可對(duì)比性的四個(gè)“一致”原則:
1、對(duì)象一致
前面征兵那個(gè)案例就是屬于對(duì)比的對(duì)象不一致。
2、時(shí)間屬性一致
A公司的銷售員離職率是12%,B公司的銷售員的離職率是4%,如果你據(jù)此就認(rèn)為B公司的人員更穩(wěn)定的話就大錯(cuò)特錯(cuò)了,你必須要再問一下他們的時(shí)間屬性是否是一致的,是否都是月離職率或年離職率等。
3、定義和計(jì)算方法一致
我給你倆舉一個(gè)典型案例,關(guān)于“青年”的定義。我查閱了大量的資料,發(fā)現(xiàn)至少有六種對(duì)青年的定義。國家統(tǒng)計(jì)局“青年”的定義為15-34歲為青年人口(用于人口普查);共青團(tuán)的相關(guān)定義為14-28歲為青年人口(這是《團(tuán)章》中的規(guī)定);青聯(lián)的相關(guān)規(guī)定為18-40歲為青年人口(見青聯(lián)章程);國務(wù)院的規(guī)定五四青年節(jié)為14-28周歲的青年放假半天;而聯(lián)合國人口基金定義為14-25歲,世界衛(wèi)生組織的標(biāo)準(zhǔn)又是14-44歲為青年人口。如果下次你們看見我國青年人占人口總數(shù)的**%的數(shù)據(jù),一定要問一下它的青年定義是什么。
4、數(shù)據(jù)源一致:
數(shù)據(jù)源不一致產(chǎn)生的差異一般比較隱蔽。
對(duì)比雖然是最簡單的分析方法,但是使用之前一定要慎重,一定要考慮清楚,一定要堅(jiān)守可對(duì)比性的原則。
被濫用的同比和環(huán)比
對(duì)比是最常用的分析方法,而同比和環(huán)比又是對(duì)比中最常用的兩種分析方法。同比是本期和去年同期的對(duì)比,環(huán)比是本期和上一期的對(duì)比。例如2015年12月和2014年12月的對(duì)比是同比,和2015年11月的對(duì)比是環(huán)比,這是統(tǒng)計(jì)學(xué)上的定義,但在實(shí)際業(yè)務(wù)中同比和環(huán)比則會(huì)復(fù)雜一些,實(shí)際業(yè)務(wù)過程中也經(jīng)常被濫用。
問:在零售業(yè)的日銷售分析中2016年7月12日的零售額同比是否應(yīng)該是對(duì)比2015年7月12日的零售額?
考慮到具體的行業(yè)就不是這樣算同比了。具體到零售業(yè)2016年7月12日和2015年7月12日的零售額并沒有實(shí)際的對(duì)比意義。因?yàn)?016年的這一天是星期二,而2015年7月12日卻是周日,對(duì)零售企業(yè)來說這是不同業(yè)務(wù)背景的日子,所以不能簡單的按統(tǒng)計(jì)學(xué)的定義來對(duì)比。我認(rèn)為和2015年7月14日的零售額對(duì)比更有意義,因?yàn)槎际切瞧诙?/span>
數(shù)據(jù)分析必須在業(yè)務(wù)中靈活應(yīng)用才有意義。對(duì)于零售企業(yè)來說日零售額的同比應(yīng)該首先遵循星期幾對(duì)比星期幾的原則,其次應(yīng)該遵循節(jié)日原則,如中秋對(duì)比中秋、端午對(duì)比端午、除夕對(duì)比除夕、情人節(jié)對(duì)比情人節(jié)、圣誕對(duì)比圣誕等,最后應(yīng)該遵循假日放假規(guī)則,如十一放假第一天和上年十一放假第一天對(duì)比等。不過現(xiàn)在的銷售分析軟件基本上是按照統(tǒng)計(jì)學(xué)的定義來設(shè)定對(duì)比原則的,不能不說是一個(gè)遺憾。需要注意,這里說的是零售企業(yè),不過餐飲業(yè)、電子商務(wù)等也應(yīng)該遵循這個(gè)原則。
問:2016年2月的零售額同比2015年2月的零售額同比有意義嗎?
二者可以對(duì)比,不過沒有太大的業(yè)務(wù)意義。首先2016年2月是29天,2015年2月是28天,其次春節(jié)假期的因素,對(duì)零售企業(yè)來說這兩個(gè)因素都是影響零售額的重要因素。所以這兩個(gè)月的零售數(shù)據(jù)同比沒有多大意義,同比增長率也沒有太大實(shí)際意義。
上面這兩個(gè)實(shí)例都屬于違背了之前對(duì)比原則中提到的時(shí)間屬性一致的原則。另外,我們?cè)倏匆幌?013年11月和2012年11月,這兩個(gè)月都是30天,并且沒有其他特定節(jié)日干擾,是不是他們就有嚴(yán)格的同比意義了呢?
首先這兩個(gè)月的可對(duì)比性大大超過前兩組日期,但如果你們倆仔細(xì)觀察的話,一定會(huì)發(fā)現(xiàn)2013年11月有9天周末休息日,而2012年11月只有8天,少一個(gè)休息日對(duì)傳統(tǒng)零售業(yè)來說意義可不小。按照周銷售指數(shù)的概念來計(jì)算,在沒有其他因素影響的前提下,因?yàn)?013年11月多一個(gè)休息日,零售額相應(yīng)會(huì)多2-3%。如果某個(gè)店鋪恰好11月的同比增長是2-3%,你必須要明白,這增長的零售額是時(shí)間屬性賦予的。
如果照這樣分析,是不是所有的月份同比零售額都沒有對(duì)比意義了?
當(dāng)然不是,同比是一種統(tǒng)計(jì)方法,只要符合統(tǒng)計(jì)學(xué)定義都可以做對(duì)比分析,只是作為數(shù)據(jù)分析人員,你們必須了解對(duì)比結(jié)果在業(yè)務(wù)層面的實(shí)際意義的大小,一定要知道數(shù)據(jù)背后的故事。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10