99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁數(shù)據(jù)分析教程數(shù)據(jù)分析師教程《統(tǒng)計(jì)學(xué)極簡(jiǎn)入門》第7節(jié) 相關(guān)性分析

數(shù)據(jù)分析師教程《統(tǒng)計(jì)學(xué)極簡(jiǎn)入門》第7節(jié) 相關(guān)性分析

2024-10-09

7. 相關(guān)性分析

前面的假設(shè)檢驗(yàn)、方差分析基本上都是圍繞差異性分析，不論是單個(gè)總體還是兩個(gè)總體及以上，總之都是屬于研究“區(qū)別”，從本節(jié)開始，我們關(guān)注“聯(lián)系”，變量之間的關(guān)系分為 函數(shù)關(guān)系和相關(guān)關(guān)系。 本節(jié)這里重點(diǎn)探討的是不同類型變量之間的相關(guān)性，千萬記住一點(diǎn)相關(guān)性不代表因果性。除表中列出的常用方法外，還有Tetrachoric、相關(guān)系數(shù)等。

變量類型	變量類型	相關(guān)系數(shù)計(jì)算方法	示例
連續(xù)型變量	連續(xù)型變量	Pearson(正態(tài))/Spearman(非正態(tài))	商品曝光量和購(gòu)買轉(zhuǎn)化率
二分類變量（無序）	連續(xù)型變量	Point-biserial	性別和疾病指數(shù)
無序分類變量	連續(xù)型變量	方差分析	不同教育水平的考試成績(jī)
有序分類變量	連續(xù)型變量	連續(xù)指標(biāo)離散化后當(dāng)做有序分類	商品評(píng)分與購(gòu)買轉(zhuǎn)化率
二分類變量	二分類變量	數(shù)學(xué)公式: 檢驗(yàn) 聯(lián)合 Cramer's V	性別和是否吸煙
二分類變量（有序）	連續(xù)型變量	Biserial	樂器練習(xí)時(shí)間與考級(jí)是否通過
無序分類變量	無序分類變量	數(shù)學(xué)公式: 檢驗(yàn) / Fisher檢驗(yàn)	手機(jī)品牌和年齡段
有序分類變量	無序分類變量	數(shù)學(xué)公式: 檢驗(yàn)	滿意度和手機(jī)品牌
有序分類變量	有序分類變量	Spearman /Kendall Tau相關(guān)系數(shù)	用戶等級(jí)和活躍程度等級(jí)

連續(xù)型變量 vs 連續(xù)型變量 : Pearson / Spearmanr

Pearson

Pearson相關(guān)系數(shù)度量了兩個(gè)連續(xù)變量之間的線性相關(guān)程度；

import random 
import numpy as np
import pandas as pd

np.random.seed(10)
df = pd.DataFrame({'商品曝光量':[1233,1333,1330,1323,1323,1142,1231,1312,1233,1123],
     '購(gòu)買轉(zhuǎn)化率':[0.033,0.034,0.035,0.033,0.034,0.029,0.032,0.034,0.033,0.031]})
df

Pandas計(jì)算Pearson相關(guān)系數(shù)

pd.Series.corr(df['商品曝光量'], df['購(gòu)買轉(zhuǎn)化率'],method = 'pearson') # pearson相關(guān)系數(shù)
# 0.885789300493948

scipy計(jì)算Pearson相關(guān)系數(shù)

import scipy.stats as stats

# 假設(shè)有兩個(gè)變量X和Y
X = df['商品曝光量']
Y = df['購(gòu)買轉(zhuǎn)化率']

# 使用spearmanr函數(shù)計(jì)算斯皮爾曼相關(guān)系數(shù)和p值
corr, p_value = stats.pearsonr(X, Y)

print("Pearson相關(guān)系數(shù):", corr)
print("p值:", p_value)
# Pearson相關(guān)系數(shù): 0.8857893004939478
# p值: 0.0006471519603654732

Spearman等級(jí)相關(guān)系數(shù)

Spearman等級(jí)相關(guān)系數(shù)可以衡量非線性關(guān)系變量間的相關(guān)系數(shù)，是一種非參數(shù)的統(tǒng)計(jì)方法，可以用于定序變量或不滿足正態(tài)分布假設(shè)的等間隔數(shù)據(jù)；

import random 
import numpy as np
import pandas as pd

np.random.seed(10)
df = pd.DataFrame({'品牌知名度排位':[9,4,3,6,5,8,1,7,10,2],
     '售后服務(wù)質(zhì)量評(píng)價(jià)排位':[8,2,5,4,7,9,1,6,10,3]})
df

Pandas計(jì)算spearman相關(guān)系數(shù)

pd.Series.corr(df['品牌知名度排位'], df['售后服務(wù)質(zhì)量評(píng)價(jià)排位'],method = 'spearman') # spearman秩相關(guān)
# 0.8787878787878788

scipy計(jì)算spearman相關(guān)系數(shù)

import scipy.stats as stats

# 假設(shè)有兩個(gè)變量X和Y
X = df['品牌知名度排位']
Y = df['售后服務(wù)質(zhì)量評(píng)價(jià)排位']

# 使用spearmanr函數(shù)計(jì)算斯皮爾曼相關(guān)系數(shù)和p值
corr, p_value = stats.spearmanr(X, Y)

print("斯皮爾曼相關(guān)系數(shù):", corr)
print("p值:", p_value)
# 斯皮爾曼相關(guān)系數(shù): 0.8787878787878788
# p值: 0.0008138621117322101

結(jié)論:p = 0.0008＜0.05，表明兩變量之間的正向關(guān)系很顯著。

二分類變量（自然）vs 連續(xù)型變量 :Point-biserial

假設(shè)我們想要研究性別對(duì)于某種疾病是否存在影響。我們有一個(gè)二元變量“性別”（男、女）和一個(gè)連續(xù)型變量“疾病指數(shù)”。我們想要計(jì)算性別與疾病指數(shù)之間的相關(guān)系數(shù)，就需要用到Point-biserial相關(guān)系數(shù)。

import scipy.stats as stats

# 創(chuàng)建一個(gè)列表來存儲(chǔ)數(shù)據(jù)
gender = [0, 1, 0, 1, 1, 0]
disease_index = [3.2, 4.5, 2.8, 4.0, 3.9, 3.1]

# 使用pointbiserialr函數(shù)計(jì)算Point-biserial相關(guān)系數(shù)和p值
corr, p_value = stats.pointbiserialr(gender, disease_index)

print("Point-biserial相關(guān)系數(shù):", corr)
print("p值:", p_value)
# Point-biserial相關(guān)系數(shù): 0.9278305692406299
# p值: 0.007624695507848026

結(jié)論:p = 0.007＜0.05，表明兩變量之間的正向關(guān)系很顯著。即性別與疾病指數(shù)正相關(guān)

無序分類變量 vs 連續(xù)型變量： ANOVA

假設(shè)我們想要比較不同教育水平的學(xué)生在CDA考試成績(jī)上是否存在顯著差異。我們有一個(gè)無序分類變量“教育水平”（高中、本科、研究生）和一個(gè)連續(xù)型變量“考試成績(jī)”。

import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 創(chuàng)建一個(gè)DataFrame來存儲(chǔ)數(shù)據(jù)
data = pd.DataFrame({
    '教育水平': ['高中', '本科', '本科', '研究生', '高中', '本科', '研究生'],
    '考試成績(jī)': [80, 90, 85, 95, 75, 88, 92]
})

# 使用ols函數(shù)創(chuàng)建一個(gè)線性模型
model = ols('考試成績(jī) ~ C(教育水平)', data=data).fit()

# 使用anova_lm函數(shù)進(jìn)行方差分析
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table

結(jié)論:p = 0.0102＜0.05，拒絕原假設(shè)，表明兩變量之間的正向關(guān)系很顯著。教育水平與考試成績(jī)正相關(guān)

有序分類變量 vs 連續(xù)型變量

將連續(xù)型變量離散化后當(dāng)做有序分類，然后用有序分類變量 VS 有序分類變量的方法

二分類變量 vs 二分類變量：檢驗(yàn) 聯(lián)合 Cramer's V

一項(xiàng)研究調(diào)查了不同性別的成年人對(duì)在公眾場(chǎng)合吸煙的態(tài)度，結(jié)果如表所示。那么，性別與對(duì)待吸煙的態(tài)度之間的相關(guān)程度

-	贊同	反對(duì)
男	15	10
女	10	26

import numpy as np
from scipy.stats import chi2_contingency

observed = np.array([[15, 10],
                     [10, 26]])
observed

chi2, p, dof, expected = chi2_contingency(observed,correction =False) # correction =False
# 卡方值 
# P值 
# 自由度： 
# 與原數(shù)據(jù)數(shù)組同維度的對(duì)應(yīng)期望值

chi2, p
#(6.3334567901234555, 0.011848116168529757)

結(jié)論:p = 0.0118＜0.05，拒絕原假設(shè)，表明兩變量之間的正向關(guān)系很顯著。

phi = np.sqrt(chi2/n)
print("phi's V:", phi)
# phi's V: 0.3222222222222222

卡方檢驗(yàn)時(shí)有多種指標(biāo)可表示效應(yīng)量，可結(jié)合數(shù)據(jù)類型及交叉表格類型綜合選擇

第一：如果是2*2表格，建議使用 指標(biāo)
第二：如果是33,或 44表格，建議使用列聯(lián)系數(shù)；
第三：如果是n*n(n>4)表格，建議使用 校正列聯(lián)系數(shù)；
第四：如果是m*n(m不等于n)表格，建議使用 Cramer V指標(biāo)；
第五：如果X或Y中有定序數(shù)據(jù)，建議使用 指標(biāo)；

這里只列出 指標(biāo) 和 Cramer V指標(biāo) 的計(jì)算，其他計(jì)算方式請(qǐng)讀者自行研究。

# 計(jì)算Cramer's V
contingency_table = observed
n = contingency_table.sum().sum()
phi_corr = np.sqrt(chi2 / (n * min(contingency_table.shape) - 1))
v = phi_corr / np.sqrt(min(contingency_table.shape) - 1)

print("Cramer's V:", v)
# Cramer's V: 0.22878509151645754

二分類變量（有序）連續(xù)型變量： Biserial

import numpy as np
from scipy.stats import pearsonr

# 生成隨機(jī)的二元變量
binary_variable = np.random.choice([0, 1], size=100)

# 生成隨機(jī)的連續(xù)變量
continuous_variable = np.random.normal(loc=0, scale=1, size=100)


# 注：此處的代碼未經(jīng)嚴(yán)格考證，請(qǐng)謹(jǐn)慎使用
def biserial_correlation(binary_variable, continuous_variable):
    binary_variable_bool = binary_variable.astype(bool)
    binary_mean = np.mean(binary_variable_bool)
    binary_std = np.std(binary_variable_bool)
    
    binary_variable_norm = (binary_variable_bool - binary_mean) / binary_std
    
    corr, _ = pearsonr(binary_variable_norm, continuous_variable)
    biserial_corr = corr * (np.std(continuous_variable) / binary_std)
    
    return biserial_corr

# 計(jì)算Biserial相關(guān)系數(shù)
biserial_corr = biserial_correlation(binary_variable, continuous_variable)

print("Biserial相關(guān)系數(shù):", biserial_corr)
Biserial相關(guān)系數(shù): -0.2061772328681707

無序分類變量 vs 無序分類變量

參考檢驗(yàn)

有序分類變量 vs 無序分類變量

參考檢驗(yàn)

有序分類變量 vs 有序分類變量

Kendall秩相關(guān)系數(shù)

Kendall秩相關(guān)系數(shù)也是一種非參數(shù)的等級(jí)相關(guān)度量，類似于Spearman等級(jí)相關(guān)系數(shù)。

import random 
import numpy as np
import pandas as pd

np.random.seed(10)
df = pd.DataFrame({'品牌知名度排位':[9,4,3,6,5,8,1,7,10,2],
     '售后服務(wù)質(zhì)量評(píng)價(jià)排位':[8,2,5,4,7,9,1,6,10,3]})
df

pd.Series.corr(df['品牌知名度排位'], df['售后服務(wù)質(zhì)量評(píng)價(jià)排位'],method = 'kendall') # Kendall Tau相關(guān)系數(shù)
# 0.7333333333333333

from scipy.stats import kendalltau

# 兩個(gè)樣本數(shù)據(jù)
x = df['品牌知名度排位']
y = df['售后服務(wù)質(zhì)量評(píng)價(jià)排位']

# 計(jì)算Kendall Tau相關(guān)系數(shù)
correlation, p_value = kendalltau(x, y)

print("Kendall Tau相關(guān)系數(shù):", correlation)
print("p值:", p_value)
# Kendall Tau相關(guān)系數(shù): 0.7333333333333333
# p值: 0.002212852733686067

浮生皆縱，恍如一夢(mèng)，讓我們只爭(zhēng)朝夕,不負(fù)韶華！

下期將為大家?guī)?a href="http://www.3lll3.cn/bigdata/205068.html" style="text-decoration: none; color: #1e6bb8; word-wrap: break-word; font-weight: bold; border-bottom: 1px solid #1e6bb8;">《統(tǒng)計(jì)學(xué)極簡(jiǎn)入門》之再看t檢驗(yàn)、F檢驗(yàn)、檢驗(yàn)

推薦學(xué)習(xí)書籍

《CDA一級(jí)教材》適合CDA一級(jí)考生備考，也適合業(yè)務(wù)及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線CDA網(wǎng)校，累計(jì)已有10萬+在讀~

免費(fèi)加入閱讀：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫(kù)，點(diǎn)擊>>> “CDA題庫(kù)” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

相關(guān)系數(shù) 連續(xù)型變量二分類 numpy DataFrame pandas 方差方差分析

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇數(shù)據(jù)分析師教程《統(tǒng)計(jì)學(xué)極簡(jiǎn)入門》第6節(jié) 方差分析

下一篇數(shù)據(jù)分析師教程《統(tǒng)計(jì)學(xué)極簡(jiǎn)入門》第8節(jié) 再看t檢驗(yàn)、F檢驗(yàn)、卡方檢驗(yàn)

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營(yíng)許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫(kù)
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)分析師教程《統(tǒng)計(jì)學(xué)極簡(jiǎn)入門》第7節(jié) 相關(guān)性分析

7. 相關(guān)性分析

連續(xù)型變量 vs 連續(xù)型變量 : Pearson / Spearmanr

Pearson

Spearman等級(jí)相關(guān)系數(shù)

二分類變量（自然）vs 連續(xù)型變量 :Point-biserial

無序分類變量 vs 連續(xù)型變量 ： ANOVA

有序分類變量 vs 連續(xù)型變量

二分類變量 vs 二分類變量 ：檢驗(yàn) 聯(lián)合 Cramer's V

二分類變量（有序） 連續(xù)型變量： Biserial

無序分類變量 vs 無序分類變量

有序分類變量 vs 無序分類變量

有序分類變量 vs 有序分類變量

Kendall秩相關(guān)系數(shù)

推薦學(xué)習(xí)書籍

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng) ...

【CDA干貨】機(jī)器學(xué)習(xí)解決實(shí)際問題的核心關(guān)鍵：從業(yè) ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

無序分類變量 vs 連續(xù)型變量： ANOVA

二分類變量 vs 二分類變量：檢驗(yàn) 聯(lián)合 Cramer's V

二分類變量（有序）連續(xù)型變量： Biserial

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...