
假設(shè)檢驗(yàn)(HypothesisTesting),或者叫做顯著性檢驗(yàn)(SignificanceTesting)是數(shù)理統(tǒng)計(jì)學(xué)中根據(jù)一定假設(shè)條件由樣本推斷總體的一種方法。其基本原理是先對(duì)總體的特征作出某種假設(shè),然后通過(guò)抽樣研究的統(tǒng)計(jì)推理,對(duì)此假設(shè)應(yīng)該被拒絕還是接受作出推斷。既然以假設(shè)為前提,那么在進(jìn)行檢驗(yàn)前需要提出相應(yīng)的假設(shè):
H0:原假設(shè)或零假設(shè)(nullhypothesis),即需要去驗(yàn)證的假設(shè);一般首先認(rèn)定原假設(shè)是正確的,然后根據(jù)顯著性水平選擇是接受還是拒絕原假設(shè)。
H1:備擇假設(shè)(alternativehypothesis),一般是原假設(shè)的否命題;當(dāng)原假設(shè)被拒絕時(shí),默認(rèn)接受備擇假設(shè)。
如原假設(shè)是假設(shè)總體均值μ=μ0,則備擇假設(shè)為總體均值μ≠μ0,檢驗(yàn)的過(guò)程就是計(jì)算相應(yīng)的統(tǒng)計(jì)量和顯著性概率,來(lái)驗(yàn)證原假設(shè)應(yīng)該被接受還是拒絕。
T檢驗(yàn)
T檢驗(yàn)(TTest)是最常見(jiàn)的一種假設(shè)檢驗(yàn)類型,主要驗(yàn)證總體均值間是否存在顯著性差異。T檢驗(yàn)屬于參數(shù)假設(shè)檢驗(yàn),所以它適用的范圍是數(shù)值型的數(shù)據(jù),在網(wǎng)站分析中可以是訪問(wèn)數(shù)、獨(dú)立訪客數(shù)、停留時(shí)間等,電子商務(wù)的訂單數(shù)、銷(xiāo)售額等。T檢驗(yàn)還需要符合一個(gè)條件——總體符合正態(tài)分布。
這里不介紹t統(tǒng)計(jì)量是怎么計(jì)算的,基于t統(tǒng)計(jì)量的顯著性概率是怎么查詢的,其實(shí)這些計(jì)算工具都可以幫我們完成,如果有興趣可以查閱統(tǒng)計(jì)類書(shū)籍,里面都會(huì)有相應(yīng)的介紹。這里介紹的是用Excel的數(shù)據(jù)分析工具來(lái)實(shí)現(xiàn)T檢驗(yàn):
Excel默認(rèn)并沒(méi)有加載“數(shù)據(jù)分析”工具,所以需要我們自己添加加載項(xiàng),通過(guò)文件—選項(xiàng)—加載項(xiàng)—勾選“分析工具庫(kù)”來(lái)完成添加,之后就可以在“數(shù)據(jù)”標(biāo)簽的最右方找到數(shù)據(jù)分析這個(gè)按鈕了,然后就可以開(kāi)始做T檢驗(yàn)了,這里以最常見(jiàn)的配對(duì)樣本t檢驗(yàn)為例,比較某個(gè)電子商務(wù)網(wǎng)站在改版前后訂單數(shù)是否產(chǎn)生了顯著性差異,以天為單位,抽樣改版前后各10天的數(shù)據(jù)進(jìn)行比較:
改版前訂單數(shù)改版后訂單數(shù)
首先建立假設(shè):
H0:μ1=μ2,改版前后每天訂單數(shù)均值相等;
H1:μ1≠μ2,改版前后每天訂單數(shù)均值不相等。
將數(shù)據(jù)輸入Excel,使用Excel的數(shù)據(jù)分析工具,選擇“t檢驗(yàn):平均值的成對(duì)二樣本分析”,輸出檢驗(yàn)結(jié)果:
看到右側(cè)顯示的結(jié)果是不是有點(diǎn)暈了,看上去有點(diǎn)專業(yè),其實(shí)也并不難,只要關(guān)注一個(gè)數(shù)值的大小——單尾的P值,這里是0.00565,如果需要驗(yàn)證在95%的置信水平下的顯著性,那么0.00565顯然小于0.05(1-95%),拒絕零假設(shè),認(rèn)為改版前后的訂單數(shù)存在顯著性差異。簡(jiǎn)單說(shuō)下為什么選擇單尾顯著性概率P,而不是雙尾,對(duì)于大部分網(wǎng)站分析的應(yīng)用環(huán)境,我們一般需要驗(yàn)證改動(dòng)前后數(shù)值是否存在明顯提升或下降,所以一般而言只會(huì)存在一類可能——或者提升或者下降,所以只要檢驗(yàn)單側(cè)的概率即可,就像上面例子中改版后的訂單數(shù)均值1240.6大于改版前的1097.3,我們需要驗(yàn)證的就是這種“大于”是否是顯著的,也就是做的是左側(cè)單邊檢驗(yàn),這種情況下只要關(guān)注單尾的顯著性概率P即可。
卡方檢驗(yàn)
卡方檢驗(yàn)(chi-squaretest),也就是χ2檢驗(yàn),用來(lái)驗(yàn)證兩個(gè)總體間某個(gè)比率之間是否存在顯著性差異??ǚ綑z驗(yàn)屬于非參數(shù)假設(shè)檢驗(yàn),適用于布爾型或二項(xiàng)分布數(shù)據(jù),基于兩個(gè)概率間的比較,早期用于生產(chǎn)企業(yè)的產(chǎn)品合格率等,在網(wǎng)站分析中可以用于轉(zhuǎn)化率、BounceRate等所有比率度量的比較分析,其實(shí)在之前的文章——AbandonmentRate的影響因素進(jìn)行過(guò)相關(guān)的應(yīng)用。這里同樣不去介紹χ2是如何計(jì)算得到的,以及基于χ2統(tǒng)計(jì)量的顯著性概率的查詢等,這里直接以轉(zhuǎn)化率為例來(lái)比較網(wǎng)站改版前后轉(zhuǎn)化率是否發(fā)生了顯著性差異,抽樣改版前后各3天的網(wǎng)站分析數(shù)據(jù)——總訪問(wèn)數(shù)和轉(zhuǎn)化的訪問(wèn)數(shù),用“轉(zhuǎn)化訪問(wèn)數(shù)/總訪問(wèn)數(shù)”計(jì)算得到轉(zhuǎn)化率:
改版前改版后
總訪問(wèn)數(shù)3056733651
轉(zhuǎn)化訪問(wèn)數(shù)29763698
轉(zhuǎn)化率9.74%10.99%
首先建立假設(shè):
H0:r1=r2,改版前后轉(zhuǎn)化率相等;
H1:r1≠r2,改版前后轉(zhuǎn)化率不相等。
其實(shí)這是一個(gè)最簡(jiǎn)單的四格卡方檢驗(yàn)的例子,也無(wú)需使用SPSS(當(dāng)然你足夠熟悉SPSS也可以使用類似的統(tǒng)計(jì)分析工具),為了簡(jiǎn)化中間的計(jì)算步驟,我這里用Excel直接制作了一個(gè)簡(jiǎn)單的卡方檢驗(yàn)的模板,只要在相應(yīng)的單元格輸入統(tǒng)計(jì)數(shù)據(jù)就能自動(dòng)顯示檢驗(yàn)的結(jié)果:
點(diǎn)擊下載:卡方檢驗(yàn)示例
Excel中淺藍(lán)色的單元格都支持輸入,包括原用方案和測(cè)試方案的總訪問(wèn)數(shù)和轉(zhuǎn)化訪問(wèn)數(shù),另外置信度95%也是支持修改了,如果你需要99%的置信水平,只要修改這個(gè)單元格即可。
怎么看檢驗(yàn)結(jié)果?其實(shí)非常簡(jiǎn)單,只要看那個(gè)紅色的“存在”單元格的顯示結(jié)果即可,上面的案例中兩者的轉(zhuǎn)化率“存在”顯著性差異,如果不存在,則該單元格相應(yīng)的就會(huì)顯示“不存在”,有了這個(gè)模板對(duì)于A/BTesting等類似的數(shù)據(jù)比較也顯得非常簡(jiǎn)單容易,或者說(shuō)其實(shí)這個(gè)Excel模板就是為了A/BTesting而量身定制的。
好了,就到這里吧,其實(shí)這篇文章并不是想從專業(yè)的統(tǒng)計(jì)學(xué)的角度來(lái)介紹T檢驗(yàn)和卡方檢驗(yàn),只是想讓大家了解這兩個(gè)方法的原理和適用條件,能夠用最簡(jiǎn)單的方式去使用諸如此類的方法讓數(shù)據(jù)更具說(shuō)服力,請(qǐng)繼續(xù)關(guān)注之后奉上的應(yīng)用實(shí)例。(文章來(lái)源:CDA數(shù)據(jù)分析師)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03