
例6.1 不同裝配方式對(duì)生產(chǎn)的過(guò)濾系統(tǒng)數(shù)量的差異性檢驗(yàn)
某城市過(guò)濾水系統(tǒng)生產(chǎn)公司,有A、B、C3種方式進(jìn)行過(guò)濾水系統(tǒng)的裝配,該公司為了研究三種裝配方式生產(chǎn)的過(guò)濾系統(tǒng)數(shù)量是否有差異,從全體裝配工人中抽取了15名工人,然后隨機(jī)地指派一種裝配方式,這樣每個(gè)裝配方式就有5個(gè)工人。在指派裝配方法和培訓(xùn)工作都完成后,一周內(nèi)對(duì)每名工人的裝配過(guò)濾系統(tǒng)數(shù)量進(jìn)行統(tǒng)計(jì)如下:
方法A | 方法B | 方法C |
---|---|---|
58 | 58 | 48 |
64 | 69 | 57 |
55 | 71 | 59 |
66 | 64 | 47 |
67 | 68 | 49 |
請(qǐng)根據(jù)數(shù)據(jù)判斷3種裝配方式有無(wú)差異
分析過(guò)程:由于目標(biāo)是判斷3種裝配方式有無(wú)差異,多樣本的檢驗(yàn)用方差分析
于是我們有了原假設(shè)和備擇假設(shè)
:均值不全相等
import pandas as pd
import numpy as np
from scipy import stats
# 數(shù)據(jù)
A = [58,64,55,66,67]
B = [58,69,71,64,68]
C = [48,57,59,47,49]
data = [A, B, C]
# 方差的齊性檢驗(yàn)
w, p = stats.levene(*data)
if p < 0.05:
print('方差齊性假設(shè)不成立')
# 成立之后, 就可以進(jìn)行單因素方差分析
f_value, p_value = stats.f_oneway(*data)
# 輸出結(jié)果
print("F_value:", f_value)
print("p_value:", p_value)
F_value: 9.176470588235295
p_value: 0.0038184120755124806
結(jié)論 選擇顯著性水平 0.05 的話,p = 0.0038 < 0.05
,故拒絕原假設(shè)。支持三種裝配方式裝配數(shù)量均值不全相等的備則假設(shè)。
例6.2 不同優(yōu)惠金額對(duì)購(gòu)買(mǎi)轉(zhuǎn)化率的差異性檢驗(yàn)
某公司營(yíng)銷(xiāo)中心為了提升銷(xiāo)量,針對(duì)某產(chǎn)品設(shè)計(jì)了3種不同金額的優(yōu)惠,想測(cè)試三種優(yōu)惠方式對(duì)于用戶的購(gòu)買(mǎi)轉(zhuǎn)化率是否有顯著影響,先收集到了三種不同方式在6個(gè)月內(nèi)的轉(zhuǎn)化率數(shù)據(jù)
請(qǐng)根據(jù)數(shù)據(jù)判斷3種不同優(yōu)惠金額的轉(zhuǎn)化率有無(wú)差異
優(yōu)惠A | 優(yōu)惠B | 優(yōu)惠C |
---|---|---|
0.043 | 0.05 | 0.048 |
0.047 | 0.048 | 0.05 |
0.051 | 0.045 | 0.047 |
0.049 | 0.055 | 0.056 |
0.045 | 0.048 | 0.054 |
0.0469 | 0.0491 | 0.0509 |
分析過(guò)程:由于目標(biāo)是判斷3種不同金額的優(yōu)惠券對(duì)于轉(zhuǎn)化率有無(wú)差異,多樣本的檢驗(yàn)用方差分析
于是我們有了原假設(shè)和備擇假設(shè)
:認(rèn)為這幾組之間的購(gòu)買(mǎi)率不一樣
P < 0.05 拒絕原假設(shè),傾向于支持不同優(yōu)惠金額購(gòu)買(mǎi)率不一樣的備擇假設(shè)。認(rèn)為不同優(yōu)惠金額會(huì)對(duì)購(gòu)買(mǎi)率產(chǎn)生影響 P > 0.05 無(wú)法拒絕原假設(shè)。認(rèn)為不同優(yōu)惠金額不會(huì)對(duì)購(gòu)買(mǎi)率產(chǎn)生影響
import pandas as pd
import numpy as np
from scipy import stats
A = [0.043 , 0.047 , 0.051 , 0.049 , 0.045 , 0.0469]
B = [0.05 , 0.048 , 0.045 , 0.055 , 0.048 , 0.0491]
C = [0.048 , 0.05 , 0.047 , 0.056 , 0.054 , 0.0509]
data = [A, B, C]
# 方差的齊性檢驗(yàn)
w, p = stats.levene(*data)
if p < 0.05:
print('方差齊性假設(shè)不成立')
# 成立之后, 就可以進(jìn)行單因素方差分析
f_value, p_value = stats.f_oneway(*data)
# 輸出結(jié)果
print("F_value:", f_value)
print("p_value:", p_value)
# F_value: 2.332956563862427
# p_value: 0.13116820340181937
結(jié)論 選擇顯著性水平 0.05 的話,p = 0.1311 > 0.05
,故無(wú)法拒絕原假設(shè)。認(rèn)為不同優(yōu)惠金額不會(huì)對(duì)購(gòu)買(mǎi)率產(chǎn)生影響
這里的等重復(fù)實(shí)驗(yàn),意思就是針對(duì)每個(gè)組合做大于等于兩次的實(shí)驗(yàn),比如下方例子中表里A1和B1的組合里面有2個(gè)數(shù)字,即說(shuō)明做了兩次實(shí)驗(yàn),如果是3個(gè)數(shù)字則說(shuō)明3次實(shí)驗(yàn),依次類(lèi)推。
例6.3 不同燃料種類(lèi)和推進(jìn)器的火箭射程差異性檢驗(yàn)
火箭的射程與燃料的種類(lèi)和推進(jìn)器的型號(hào)有關(guān),現(xiàn)對(duì)四種不同的燃料與三種不同型號(hào)的推進(jìn)器進(jìn)行試驗(yàn),每種組合各發(fā)射火箭兩次,測(cè)得火箭的射程如表(以海里計(jì))(設(shè)顯著性水平為0.05)
燃料 | B1 | B2 | B3 |
---|---|---|---|
A1 | 58.2 , 52.6 | 56.2 , 41.2 | 65.3 , 60.8 |
A2 | 49.1 , 42.8 | 54.1 , 50.5 | 51.6 , 48.4 |
A3 | 60.1 , 58.3 | 70.9 , 73.2 | 39.2 , 40.7 |
A4 | 75.8 , 71.5 | 58.2 , 51.0 | 48.7 , 41.0 |
import numpy as np
import pandas as pd
d = np.array([[58.2, 52.6, 56.2, 41.2, 65.3, 60.8],
[49.1, 42.8, 54.1, 50.5, 51.6, 48.4],
[60.1, 58.3, 70.9, 73.2, 39.2, 40.7],
[75.8, 71.5, 58.2, 51.0, 48.7,41.4]
])
data = pd.DataFrame(d)
data.index=pd.Index(['A1','A2','A3','A4'],name='燃料')
data.columns=pd.Index(['B1','B1','B2','B2','B3','B3'],name='推進(jìn)器')
# pandas寬表轉(zhuǎn)長(zhǎng)表
data = data.reset_index().melt(id_vars =['燃料'])
data = data.rename(columns={'value':'射程'})
data.sample(5)
燃料 | 推進(jìn)器 | 射程 |
---|---|---|
A2 | B3 | 48.4 |
A3 | B2 | 73.2 |
A3 | B3 | 39.2 |
A4 | B1 | 71.5 |
A2 | B2 | 54.1 |
import statsmodels.api as sm
from statsmodels.formula.api import ols
# 進(jìn)行雙因素方差分析
model = ols('射程~C(燃料) + C(推進(jìn)器)+C(燃料):C(推進(jìn)器)', data =data).fit()
# 打印方差分析表
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table
sum_sq | df | F | PR(>F) | |
---|---|---|---|---|
C(燃料) | 261.675 | 3 | 4.41739 | 0.025969 |
C(推進(jìn)器) | 370.981 | 2 | 9.3939 | 0.00350603 |
C(燃料):C(推進(jìn)器) | 1768.69 | 6 | 14.9288 | 6.15115e-05 |
Residual | 236.95 | 12 | nan | nan |
結(jié)論:
對(duì)燃料因素來(lái)說(shuō),其p = 0.0259 < 0.05
所以拒絕,認(rèn)為燃料對(duì)射程影響顯著;
對(duì)推進(jìn)器因素來(lái)說(shuō),其p = 0.0035 < 0.05
,所以拒絕,認(rèn)為推進(jìn)器對(duì)射程影響顯著;
對(duì)燃料和推進(jìn)器的交互因素來(lái)說(shuō),其p = 0.000062< 0.05
,所以拒絕,認(rèn)為交互因素其對(duì)射程影響顯著。
在等重復(fù)實(shí)驗(yàn)中,我們?yōu)榱藱z驗(yàn)實(shí)驗(yàn)中兩個(gè)因素的交互作用,針對(duì)每對(duì)組合至少要做2次以上實(shí)驗(yàn),才能夠?qū)⒔换プ饔门c誤差分離開(kāi)來(lái),在處理實(shí)際問(wèn)題時(shí)候,如果我們一直不存在交互作用,或者交互作用對(duì)實(shí)驗(yàn)指標(biāo)影響極小,則可以不考慮交互作用,此時(shí)每對(duì)組合只做一次實(shí)驗(yàn),類(lèi)似下方例子中的表中數(shù)據(jù):
例6.4 不同時(shí)間、不同地點(diǎn)顆粒狀物含量差異性檢驗(yàn) 無(wú)重復(fù)實(shí)驗(yàn)
下面給出了在5個(gè)不同地點(diǎn)、不同時(shí)間空氣中的顆粒狀物(單位:mg/m°)含 量的數(shù)據(jù)記錄于表中,試在顯著性水平下檢驗(yàn)不同時(shí)間、不同地點(diǎn)顆粒狀物含量有無(wú)顯著差異?(假設(shè)兩者沒(méi)有交互作用〉
因素B -地點(diǎn) | ||||||
---|---|---|---|---|---|---|
因素A - 時(shí)間 | ||||||
1995年10月 | 76 | 67 | 81 | 56 | 51 | |
1996年01月 | 82 | 69 | 96 | 59 | 70 | |
1996年05月 | 68 | 59 | 67 | 54 | 42 | |
1996年08月 | 63 | 56 | 64 | 58 | 37 |
import numpy as np
import pandas as pd
d = np.array([
[76,67,81,56,51],
[82,69,96,59,70],
[68,59,67,54,42],
[63,56,64,58,37]])
data = pd.DataFrame(d)
data.index=pd.Index(['1995年10月','1996年01月','1996年05月','1996年08月'],name='時(shí)間')
data.columns=pd.Index(['B1','B2','B3','B4','B5'],name='地點(diǎn)')
# pandas寬表轉(zhuǎn)長(zhǎng)表
data = data.reset_index().melt(id_vars =['時(shí)間'])
data = data.rename(columns={'value':'顆粒狀物含量'})
data.sample(5)
隨機(jī)查看5條轉(zhuǎn)化后的數(shù)據(jù):
時(shí)間 | 地點(diǎn) | 顆粒狀物含量 |
---|---|---|
1996年05月 | B4 | 54 |
1995年10月 | B4 | 56 |
1996年05月 | B3 | 67 |
1996年01月 | B2 | 69 |
1996年01月 | B3 | 96 |
import statsmodels.api as sm
from statsmodels.formula.api import ols
# 進(jìn)行雙因素方差分析
model = ols('顆粒狀物含量~C(時(shí)間) + C(地點(diǎn))', data =data).fit()
# 打印方差分析表
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table
sum_sq | df | F | PR(>F) | |
---|---|---|---|---|
C(時(shí)間) | 1182.95 | 3 | 10.7224 | 0.00103293 |
C(地點(diǎn)) | 1947.5 | 4 | 13.2393 | 0.000234184 |
Residual | 441.3 | 12 | nan | nan |
結(jié)論:
對(duì)時(shí)間因素來(lái)說(shuō),其p = 0.001033 < 0.05
所以拒絕,認(rèn)為時(shí)間對(duì)顆粒狀物含量影響顯著;
對(duì)地點(diǎn)因素來(lái)說(shuō),其p = 0.000234 < 0.05
,所以拒絕,認(rèn)為地點(diǎn)對(duì)顆粒狀物含量影響顯著;
下期將為大家?guī)?lái)《統(tǒng)計(jì)學(xué)極簡(jiǎn)入門(mén)》之相關(guān)分析
這里分享一個(gè)你一定用得到的小程序——CDA數(shù)據(jù)分析師考試小程序。
它是專為CDA數(shù)據(jù)分析認(rèn)證考試報(bào)考打造的一款小程序??梢詭湍憧焖賵?bào)名考試、查成績(jī)、查證書(shū)、查積分,通過(guò)該小程序,考生可以享受更便捷的服務(wù)。
掃碼加入CDA小程序,與圈內(nèi)考生一同學(xué)習(xí)、交流、進(jìn)步!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03