
運(yùn)營(yíng)數(shù)據(jù)中常見的數(shù)據(jù)陷阱
當(dāng)下的時(shí)代已經(jīng)是一個(gè)真正的大數(shù)據(jù)時(shí)代,而互聯(lián)網(wǎng)產(chǎn)品達(dá)到億級(jí)的用戶量,甚至十億級(jí)的用戶量,都已經(jīng)不鮮見了,產(chǎn)品的迭代方向,用戶行為的分析都要用數(shù)據(jù)說(shuō)話,產(chǎn)品經(jīng)理、運(yùn)營(yíng)人員想要做出正確的決定,要比以往任何時(shí)候都更加依賴數(shù)據(jù)。
如今,“大數(shù)據(jù)”的概念已經(jīng)被炒得沸沸揚(yáng)揚(yáng),不可否認(rèn),現(xiàn)在的各個(gè)領(lǐng)域的數(shù)據(jù)確實(shí)是越來(lái)越多了,人們的數(shù)據(jù)意識(shí)也正在增強(qiáng),尤其是在積累相對(duì)容易的電商行業(yè),但面對(duì)眾多的運(yùn)營(yíng)數(shù)據(jù),你真的能有效的將其應(yīng)用嗎?先不談各種復(fù)雜的計(jì)量模型,先從幾個(gè)簡(jiǎn)單的統(tǒng)計(jì)學(xué)概念入手,提醒大家:數(shù)據(jù)有陷阱,應(yīng)用需謹(jǐn)慎。
1、算術(shù)平均數(shù)的局限性
算數(shù)平均數(shù),即幾個(gè)數(shù)字相加后除以個(gè)數(shù),這也許是大家僅有的對(duì)平均數(shù)的理解,但其實(shí)平均數(shù)還有很多,比如中位數(shù)、幾何平均數(shù)、眾數(shù)等等。
對(duì)此,我們先來(lái)看一個(gè)例子:某店鋪一段時(shí)間的營(yíng)業(yè)額數(shù)據(jù)如下:該店鋪12期銷售額的算數(shù)平均數(shù)是300,但有10期數(shù)值都在300以下,這樣的數(shù)值合理嗎?前10期的算數(shù)平均數(shù)僅是210,和300相去甚遠(yuǎn),顯然后面兩期的數(shù)值對(duì)整體的拉升作用明顯。
來(lái)個(gè)更極端的例子,三個(gè)人的年收入分別是3萬(wàn)、3萬(wàn)和300萬(wàn),但算數(shù)平均是102萬(wàn),原本是兩個(gè)屌絲和一個(gè)高帥富,可一平均后大家都成了高帥富,大家很多時(shí)候吐槽統(tǒng)計(jì)數(shù)字有水分,其實(shí)這就是算術(shù)平均數(shù)的陷阱。
那么,怎樣獲得更準(zhǔn)確的平均數(shù)呢?有人說(shuō),“去掉最大值,去掉最小值”,這方法沒錯(cuò),但略顯粗暴,我們介紹幾個(gè)更科學(xué)的計(jì)算方式。
先看中位數(shù),中位數(shù)即將數(shù)列從小到大排列后,取中間位置的那個(gè)數(shù)字作為平均數(shù),若數(shù)列是偶數(shù),則取中間兩位數(shù)的算數(shù)平均,例1的中位數(shù)是200,顯然比300要來(lái)的合理的多。
其次是眾數(shù),即出現(xiàn)頻率最高的那個(gè)數(shù)。
最后介紹下幾何平均數(shù),若要求5個(gè)數(shù)字的幾何平均數(shù),則將這5個(gè)數(shù)連乘后開5次方,例1中的幾何平均數(shù)是268,也要比300更接近真實(shí)水平。
目前普遍在用的算數(shù)平均數(shù),受極值的影響很大,其準(zhǔn)確性是值得管理者們注意的,馬海祥建議管理者將中位數(shù)也應(yīng)用起來(lái),對(duì)算數(shù)平均的判斷起輔助作用,若兩者相差過(guò)大,則需要找到極值產(chǎn)生的原因。
在EXCEL中,中位數(shù)、眾數(shù)和幾何平均數(shù)的函數(shù)分別是MEDIAN、MODE和GEOMEAN,應(yīng)用起來(lái)非常方便。
2、引入定基比率
目前大家比較熟悉的是同比增長(zhǎng)率和環(huán)比增長(zhǎng)率,同比增長(zhǎng)率能夠排除掉季節(jié)性的因素,反映出較為實(shí)質(zhì)性的增長(zhǎng),而環(huán)比能夠連續(xù)地、動(dòng)態(tài)地反映出指標(biāo)的變化,但僅有這兩個(gè)指標(biāo)有時(shí)候是不夠的。
比如,去年和今年市場(chǎng)行情相差很大,那么同比(今年與去年同期比)的參照性就很不可靠,而環(huán)比只看到了這期和上期的差異,若相隔的期數(shù)多了,就很難判斷現(xiàn)在的狀況如何,怎么辦?大家不要忘了定基比率,即將固定的某期設(shè)為基數(shù),其后各期該期進(jìn)行對(duì)比。
比如某店鋪今年1月至12月的銷售額數(shù)據(jù)為(10,12,13,16,18,13,17,19,18,20,25,22),我們將1月數(shù)據(jù)設(shè)為基數(shù)100,其后各期與之的比值即為定基比數(shù)據(jù)(100,120,130,…,250,220),馬海祥認(rèn)為定基比有時(shí)更能反映出某段時(shí)間的經(jīng)營(yíng)成果,比如某項(xiàng)改革從1月開始了,那就將各種運(yùn)營(yíng)指標(biāo)以1月為基期,以后各月與它對(duì)比,便能直觀反映這項(xiàng)改革帶來(lái)的效果(具體可查看馬海祥博客《如何以客戶為中心進(jìn)行數(shù)據(jù)挖掘與分析》的相關(guān)介紹)。
3、絕對(duì)的排名不一定可靠
某天你孩子向你報(bào)告考試成績(jī),說(shuō)考了第9名,你是高興還是憤怒?先別急著下論斷,得先問(wèn)問(wèn)幾個(gè)人考試,若是500人,那你必然賜予擁吻和禮物;而若是10個(gè)人,你八成會(huì)賞個(gè)巴掌,這就是絕對(duì)數(shù)字排名的局限性。
那么,我們用個(gè)百分比數(shù)值來(lái)代替之,就免去了這樣的尷尬,即排名數(shù)值除以總的參與排名的個(gè)數(shù),比如我經(jīng)營(yíng)50款產(chǎn)品,某款產(chǎn)品銷售額排在第8位,那就表明它排在16%。
要多說(shuō)一點(diǎn)的是,在百分比的排名中,需重視四分位數(shù),即25%,50%,75%三個(gè)檔次,許多指標(biāo)的優(yōu)劣都會(huì)以四分衛(wèi)數(shù)來(lái)衡量,比如你的轉(zhuǎn)化率在行業(yè)內(nèi)的前25%以內(nèi)浮動(dòng),那你暫時(shí)不用擔(dān)心,將精力放在其他方面,若低于25%了,那你或許要花力氣來(lái)提升你的轉(zhuǎn)化率了。
4、不要被漂亮的增長(zhǎng)曲線蒙蔽
對(duì)于許多中小型的電商企業(yè),經(jīng)營(yíng)的第一步便是沖銷售額,因此粗放經(jīng)營(yíng)是普態(tài),對(duì)各種指標(biāo)的大起大落習(xí)以為常,有了漂亮的增長(zhǎng)業(yè)績(jī),穩(wěn)定性真的不重要嗎?馬海祥不這么認(rèn)為,尤其是成本,穩(wěn)定各項(xiàng)成本是對(duì)企業(yè)發(fā)展的一種蓄力。
比如采購(gòu)成本,許多企業(yè)判斷其采購(gòu)成本的唯一指標(biāo)便是算數(shù)平均數(shù),其弊端在上文中已經(jīng)指出,而對(duì)穩(wěn)定性的認(rèn)識(shí)只停留在人的主觀感受或采購(gòu)曲線的波動(dòng)上,馬海祥建議電商們計(jì)算方差指標(biāo),即EXCEL中的VAR函數(shù),方差越大,表示該指標(biāo)穩(wěn)定性越差。
一般來(lái)說(shuō),一個(gè)健康的企業(yè),不管銷售額如何變化,其成本的穩(wěn)定性(絕對(duì)值較穩(wěn)定或者變化率較穩(wěn)定)會(huì)較強(qiáng),即方差較小,穩(wěn)定性變差,一般預(yù)示著重大變化的來(lái)臨,面對(duì)越來(lái)越飽和的市場(chǎng)和越來(lái)越激烈的競(jìng)爭(zhēng),電商企業(yè)急需關(guān)注自己運(yùn)營(yíng)的穩(wěn)定性,尤其是與供應(yīng)鏈各個(gè)環(huán)節(jié)相關(guān)的穩(wěn)定性,如采購(gòu)成本、推廣費(fèi)用、物流費(fèi)用等等,任何指標(biāo)若變得不穩(wěn)定了,就該警惕,找出背后的原因(具體可查看馬海祥博客《如何通過(guò)大數(shù)據(jù)來(lái)獲取商業(yè)價(jià)值》的相關(guān)介紹)。
5、不要太在意活動(dòng)中的數(shù)據(jù)
馬海祥有幸觀察過(guò)一個(gè)日化店鋪的數(shù)據(jù),老板非常想知道什么因素對(duì)銷售額的影響最大?在對(duì)其運(yùn)營(yíng)數(shù)據(jù)進(jìn)行回歸分析后,發(fā)現(xiàn)做活動(dòng)的次數(shù)和時(shí)長(zhǎng)對(duì)其銷售額都沒有影響(統(tǒng)計(jì)不顯著),唯一有影響的是客單價(jià),客單價(jià)越低銷售額越高。
乍看之下,這個(gè)結(jié)論著實(shí)有些讓人無(wú)語(yǔ)(因?yàn)檎l(shuí)都知道),但模型顯示,客單價(jià)每降低一元,總銷售額提升100多,鑒于其高于50%的毛利率,降價(jià)一元可以總體上多賺50塊,但是總銷售額是萬(wàn)元級(jí)的,因此多賺的50元微不足道,所以總體上看,銷售額似乎是一個(gè)不受人為控制的指標(biāo)(自然波動(dòng)),這似乎是一個(gè)謎題。
但促銷活動(dòng)的不顯著是值得我們思考的,當(dāng)然,也許是我們遺漏了某關(guān)鍵的指標(biāo),也許僅僅有客單價(jià)、促銷次數(shù)、促銷天數(shù)、轉(zhuǎn)化率、UV、熟客率等指標(biāo)是不夠的,但不妨自問(wèn),我們很多時(shí)候是不是太過(guò)看重促銷和推廣了呢!
6、數(shù)據(jù)的“假規(guī)律”和“偽相關(guān)”
數(shù)據(jù)越大未必就能帶來(lái)更高的預(yù)測(cè)率,甚至還會(huì)帶來(lái)“假規(guī)律”和“偽相關(guān)”,比方說(shuō):搜索2005至2015年間的美國(guó)汽車銷售與“印度餐館”,結(jié)果發(fā)現(xiàn)二者之間竟然存在相關(guān)關(guān)系,這個(gè)東西顯然是無(wú)法解釋的,那么,偽相關(guān)的原因是什么呢?
首先,相關(guān)性并不意味著因果關(guān)系,比方說(shuō):Google Flu Trends對(duì)趨勢(shì)的預(yù)測(cè)并非屢試不爽,有幾次Google Trends就嚴(yán)重高估了流感病例的數(shù)量,包括2011/12的美國(guó)流感,2008/09瑞士流感,2008/09德國(guó)流感、2008/09比利時(shí)流感等。
英國(guó)倫敦大學(xué)學(xué)院的研究人員對(duì)此進(jìn)行了研究,結(jié)果發(fā)現(xiàn),到Google搜索“流感”的人可以分成兩類:一類是感冒患者;另一類是跟風(fēng)搜索者(可能是因?yàn)槊襟w報(bào)道而對(duì)感冒話題感興趣者)。
顯然第一類人的數(shù)據(jù)才是有用的,其搜索是內(nèi)部產(chǎn)生的,獨(dú)立于外界的,因此這些人的搜索模式應(yīng)該與受到外界影響而進(jìn)行搜索的人的模式不同,而正是第二類人的社會(huì)化搜索使得Google Flu Trends的預(yù)測(cè)失真,這正是因?yàn)镚oogle Flu Trends把搜索“流感”與得流感的相關(guān)性當(dāng)成了因果關(guān)系所致。
而稍早前美國(guó)東北大學(xué)與哈佛大學(xué)的研究人員對(duì)Google Flu Trends的失真案例進(jìn)行的另一組研究則認(rèn)為,這反映出了熱炒大數(shù)據(jù)的氛圍下誕生的一股大數(shù)據(jù)自大思潮,這股思潮認(rèn)為,大數(shù)據(jù)完全可以取代傳統(tǒng)的數(shù)據(jù)收集方法,其最大問(wèn)題在于,絕大多數(shù)大數(shù)據(jù)與經(jīng)過(guò)嚴(yán)謹(jǐn)科學(xué)試驗(yàn)和采樣設(shè)計(jì)得到的數(shù)據(jù)之間存在很大的不同,首先,大未必全;其次,大則可能魚龍混雜。
此外,Google搜索算法本身的變化也有可能影響到Google Flu Trends的結(jié)果,這個(gè)原因不難理解,要知道,Google搜索的調(diào)整非常頻繁,單去年就進(jìn)行了890項(xiàng)改進(jìn),其中就有不少屬于算法的調(diào)整,媒體對(duì)于流感流行的報(bào)道會(huì)增加與流感相關(guān)的詞匯的搜索次數(shù),也會(huì)令Google增加相關(guān)搜索的推薦,從而令一些本身并不感冒的人也對(duì)流感產(chǎn)生了興趣,進(jìn)而把數(shù)據(jù)弄臟。
對(duì)于清洗數(shù)據(jù),歸根到底還是需要對(duì)數(shù)據(jù)進(jìn)行模式分析,在流感趨勢(shì)這個(gè)例子,研究人員認(rèn)為,執(zhí)行獨(dú)立搜索的患流感人群的模式會(huì)隨著時(shí)間推移而異于社會(huì)化搜索,其表現(xiàn)應(yīng)該是在流感爆發(fā)時(shí)搜索急劇攀升,然后隨著流感消失而緩慢下降,相反,社會(huì)化搜索則會(huì)表現(xiàn)得更為勻稱,數(shù)據(jù)表明,在Google流感趨勢(shì)出現(xiàn)高估的時(shí)候,趨勢(shì)曲線的對(duì)稱性的確更高。
這說(shuō)明在分析大數(shù)據(jù)時(shí)必須要注意此類陷阱,充斥的大數(shù)據(jù)集以及統(tǒng)計(jì)學(xué)家對(duì)分析結(jié)果的傳播會(huì)令真實(shí)的數(shù)據(jù)被放大或弄臟。
其實(shí),數(shù)據(jù)的價(jià)值并不僅僅體現(xiàn)在其大小和精準(zhǔn)度上,利用創(chuàng)新性數(shù)據(jù)分析方法去分析數(shù)據(jù)才是本質(zhì),在未來(lái)數(shù)據(jù)能夠逐步成為真正的大數(shù)據(jù),并且數(shù)字世界與實(shí)體世界的映射趨于一致時(shí),大數(shù)據(jù)也許就能發(fā)揮其完全的威力,乃至于改變我們解決問(wèn)題的方式。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11