
例6.1 不同裝配方式對生產(chǎn)的過濾系統(tǒng)數(shù)量的差異性檢驗
某城市過濾水系統(tǒng)生產(chǎn)公司,有A、B、C3種方式進行過濾水系統(tǒng)的裝配,該公司為了研究三種裝配方式生產(chǎn)的過濾系統(tǒng)數(shù)量是否有差異,從全體裝配工人中抽取了15名工人,然后隨機地指派一種裝配方式,這樣每個裝配方式就有5個工人。在指派裝配方法和培訓工作都完成后,一周內(nèi)對每名工人的裝配過濾系統(tǒng)數(shù)量進行統(tǒng)計如下:
方法A | 方法B | 方法C |
---|---|---|
58 | 58 | 48 |
64 | 69 | 57 |
55 | 71 | 59 |
66 | 64 | 47 |
67 | 68 | 49 |
請根據(jù)數(shù)據(jù)判斷3種裝配方式有無差異
分析過程:由于目標是判斷3種裝配方式有無差異,多樣本的檢驗用方差分析
于是我們有了原假設(shè)和備擇假設(shè)
:均值不全相等
import pandas as pd
import numpy as np
from scipy import stats
# 數(shù)據(jù)
A = [58,64,55,66,67]
B = [58,69,71,64,68]
C = [48,57,59,47,49]
data = [A, B, C]
# 方差的齊性檢驗
w, p = stats.levene(*data)
if p < 0.05:
print('方差齊性假設(shè)不成立')
# 成立之后, 就可以進行單因素方差分析
f_value, p_value = stats.f_oneway(*data)
# 輸出結(jié)果
print("F_value:", f_value)
print("p_value:", p_value)
F_value: 9.176470588235295
p_value: 0.0038184120755124806
結(jié)論 選擇顯著性水平 0.05 的話,p = 0.0038 < 0.05
,故拒絕原假設(shè)。支持三種裝配方式裝配數(shù)量均值不全相等的備則假設(shè)。
例6.2 不同優(yōu)惠金額對購買轉(zhuǎn)化率的差異性檢驗
某公司營銷中心為了提升銷量,針對某產(chǎn)品設(shè)計了3種不同金額的優(yōu)惠,想測試三種優(yōu)惠方式對于用戶的購買轉(zhuǎn)化率是否有顯著影響,先收集到了三種不同方式在6個月內(nèi)的轉(zhuǎn)化率數(shù)據(jù)
請根據(jù)數(shù)據(jù)判斷3種不同優(yōu)惠金額的轉(zhuǎn)化率有無差異
優(yōu)惠A | 優(yōu)惠B | 優(yōu)惠C |
---|---|---|
0.043 | 0.05 | 0.048 |
0.047 | 0.048 | 0.05 |
0.051 | 0.045 | 0.047 |
0.049 | 0.055 | 0.056 |
0.045 | 0.048 | 0.054 |
0.0469 | 0.0491 | 0.0509 |
分析過程:由于目標是判斷3種不同金額的優(yōu)惠券對于轉(zhuǎn)化率有無差異,多樣本的檢驗用方差分析
于是我們有了原假設(shè)和備擇假設(shè)
:認為這幾組之間的購買率不一樣
P < 0.05 拒絕原假設(shè),傾向于支持不同優(yōu)惠金額購買率不一樣的備擇假設(shè)。認為不同優(yōu)惠金額會對購買率產(chǎn)生影響 P > 0.05 無法拒絕原假設(shè)。認為不同優(yōu)惠金額不會對購買率產(chǎn)生影響
import pandas as pd
import numpy as np
from scipy import stats
A = [0.043 , 0.047 , 0.051 , 0.049 , 0.045 , 0.0469]
B = [0.05 , 0.048 , 0.045 , 0.055 , 0.048 , 0.0491]
C = [0.048 , 0.05 , 0.047 , 0.056 , 0.054 , 0.0509]
data = [A, B, C]
# 方差的齊性檢驗
w, p = stats.levene(*data)
if p < 0.05:
print('方差齊性假設(shè)不成立')
# 成立之后, 就可以進行單因素方差分析
f_value, p_value = stats.f_oneway(*data)
# 輸出結(jié)果
print("F_value:", f_value)
print("p_value:", p_value)
# F_value: 2.332956563862427
# p_value: 0.13116820340181937
結(jié)論 選擇顯著性水平 0.05 的話,p = 0.1311 > 0.05
,故無法拒絕原假設(shè)。認為不同優(yōu)惠金額不會對購買率產(chǎn)生影響
這里的等重復實驗,意思就是針對每個組合做大于等于兩次的實驗,比如下方例子中表里A1和B1的組合里面有2個數(shù)字,即說明做了兩次實驗,如果是3個數(shù)字則說明3次實驗,依次類推。
例6.3 不同燃料種類和推進器的火箭射程差異性檢驗
火箭的射程與燃料的種類和推進器的型號有關(guān),現(xiàn)對四種不同的燃料與三種不同型號的推進器進行試驗,每種組合各發(fā)射火箭兩次,測得火箭的射程如表(以海里計)(設(shè)顯著性水平為0.05)
燃料 | B1 | B2 | B3 |
---|---|---|---|
A1 | 58.2 , 52.6 | 56.2 , 41.2 | 65.3 , 60.8 |
A2 | 49.1 , 42.8 | 54.1 , 50.5 | 51.6 , 48.4 |
A3 | 60.1 , 58.3 | 70.9 , 73.2 | 39.2 , 40.7 |
A4 | 75.8 , 71.5 | 58.2 , 51.0 | 48.7 , 41.0 |
import numpy as np
import pandas as pd
d = np.array([[58.2, 52.6, 56.2, 41.2, 65.3, 60.8],
[49.1, 42.8, 54.1, 50.5, 51.6, 48.4],
[60.1, 58.3, 70.9, 73.2, 39.2, 40.7],
[75.8, 71.5, 58.2, 51.0, 48.7,41.4]
])
data = pd.DataFrame(d)
data.index=pd.Index(['A1','A2','A3','A4'],name='燃料')
data.columns=pd.Index(['B1','B1','B2','B2','B3','B3'],name='推進器')
# pandas寬表轉(zhuǎn)長表
data = data.reset_index().melt(id_vars =['燃料'])
data = data.rename(columns={'value':'射程'})
data.sample(5)
燃料 | 推進器 | 射程 |
---|---|---|
A2 | B3 | 48.4 |
A3 | B2 | 73.2 |
A3 | B3 | 39.2 |
A4 | B1 | 71.5 |
A2 | B2 | 54.1 |
import statsmodels.api as sm
from statsmodels.formula.api import ols
# 進行雙因素方差分析
model = ols('射程~C(燃料) + C(推進器)+C(燃料):C(推進器)', data =data).fit()
# 打印方差分析表
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table
sum_sq | df | F | PR(>F) | |
---|---|---|---|---|
C(燃料) | 261.675 | 3 | 4.41739 | 0.025969 |
C(推進器) | 370.981 | 2 | 9.3939 | 0.00350603 |
C(燃料):C(推進器) | 1768.69 | 6 | 14.9288 | 6.15115e-05 |
Residual | 236.95 | 12 | nan | nan |
結(jié)論:
對燃料因素來說,其p = 0.0259 < 0.05
所以拒絕,認為燃料對射程影響顯著;
對推進器因素來說,其p = 0.0035 < 0.05
,所以拒絕,認為推進器對射程影響顯著;
對燃料和推進器的交互因素來說,其p = 0.000062< 0.05
,所以拒絕,認為交互因素其對射程影響顯著。
在等重復實驗中,我們?yōu)榱藱z驗實驗中兩個因素的交互作用,針對每對組合至少要做2次以上實驗,才能夠?qū)⒔换プ饔门c誤差分離開來,在處理實際問題時候,如果我們一直不存在交互作用,或者交互作用對實驗指標影響極小,則可以不考慮交互作用,此時每對組合只做一次實驗,類似下方例子中的表中數(shù)據(jù):
例6.4 不同時間、不同地點顆粒狀物含量差異性檢驗 無重復實驗
下面給出了在5個不同地點、不同時間空氣中的顆粒狀物(單位:mg/m°)含 量的數(shù)據(jù)記錄于表中,試在顯著性水平下檢驗不同時間、不同地點顆粒狀物含量有無顯著差異?(假設(shè)兩者沒有交互作用〉
因素B -地點 | ||||||
---|---|---|---|---|---|---|
因素A - 時間 | ||||||
1995年10月 | 76 | 67 | 81 | 56 | 51 | |
1996年01月 | 82 | 69 | 96 | 59 | 70 | |
1996年05月 | 68 | 59 | 67 | 54 | 42 | |
1996年08月 | 63 | 56 | 64 | 58 | 37 |
import numpy as np
import pandas as pd
d = np.array([
[76,67,81,56,51],
[82,69,96,59,70],
[68,59,67,54,42],
[63,56,64,58,37]])
data = pd.DataFrame(d)
data.index=pd.Index(['1995年10月','1996年01月','1996年05月','1996年08月'],name='時間')
data.columns=pd.Index(['B1','B2','B3','B4','B5'],name='地點')
# pandas寬表轉(zhuǎn)長表
data = data.reset_index().melt(id_vars =['時間'])
data = data.rename(columns={'value':'顆粒狀物含量'})
data.sample(5)
隨機查看5條轉(zhuǎn)化后的數(shù)據(jù):
時間 | 地點 | 顆粒狀物含量 |
---|---|---|
1996年05月 | B4 | 54 |
1995年10月 | B4 | 56 |
1996年05月 | B3 | 67 |
1996年01月 | B2 | 69 |
1996年01月 | B3 | 96 |
import statsmodels.api as sm
from statsmodels.formula.api import ols
# 進行雙因素方差分析
model = ols('顆粒狀物含量~C(時間) + C(地點)', data =data).fit()
# 打印方差分析表
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table
sum_sq | df | F | PR(>F) | |
---|---|---|---|---|
C(時間) | 1182.95 | 3 | 10.7224 | 0.00103293 |
C(地點) | 1947.5 | 4 | 13.2393 | 0.000234184 |
Residual | 441.3 | 12 | nan | nan |
結(jié)論:
對時間因素來說,其p = 0.001033 < 0.05
所以拒絕,認為時間對顆粒狀物含量影響顯著;
對地點因素來說,其p = 0.000234 < 0.05
,所以拒絕,認為地點對顆粒狀物含量影響顯著;
下期將為大家?guī)?a href="http://www.3lll3.cn/bigdata/205067.html" style="text-decoration: none; color: #1e6bb8; word-wrap: break-word; font-weight: bold; border-bottom: 1px solid #1e6bb8;">《統(tǒng)計學極簡入門》之相關(guān)分析
這里分享一個你一定用得到的小程序——CDA數(shù)據(jù)分析師考試小程序。
它是專為CDA數(shù)據(jù)分析認證考試報考打造的一款小程序。可以幫你快速報名考試、查成績、查證書、查積分,通過該小程序,考生可以享受更便捷的服務。
掃碼加入CDA小程序,與圈內(nèi)考生一同學習、交流、進步!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10