
久經(jīng)考場(chǎng)的你肯定對(duì)于很多概念類題目里問到的 “區(qū)別和聯(lián)系” 不陌生,與之類似,在統(tǒng)計(jì)領(lǐng)域要研究的是數(shù)據(jù)之間的區(qū)別和聯(lián)系 ,也就是差異性分析和相關(guān)性分析。本節(jié)我們重點(diǎn)關(guān)注數(shù)據(jù)的差異性分析。
我們知道,比較兩個(gè)數(shù)之間的大小,要么前后兩者求差,要么求比。差值大于零說明前者大于后者。比值大于1說明分子大于分母。
那么如何比較兩組數(shù)據(jù)的差異性呢?大道至簡(jiǎn),其實(shí)和上面原理類似
我們先從簡(jiǎn)單的看起,先比較一組數(shù)和一個(gè)給定數(shù)的差異,即,單個(gè)總體的差異性分析:
常見的單個(gè)總體差異性的假設(shè)檢驗(yàn)分為3個(gè)類型:均值、比例、方差
顧名思義,就是檢驗(yàn)指定值與樣本均值的差異,按是否已知可以分2種情況:
接下來我們用代碼舉例實(shí)現(xiàn)一下你就明白怎么用了:
例5.1 檢驗(yàn)一批廠家生產(chǎn)的紅糖是否夠標(biāo)重
監(jiān)督部門稱了50包標(biāo)重500g的紅糖,均值是498.35g,少于所標(biāo)的500g。對(duì)于廠家生產(chǎn)的這批紅糖平均起來是否夠份量,需要統(tǒng)計(jì)檢驗(yàn)。
分析過程: 由于廠家聲稱每袋500g,因此原假設(shè)為總體均值等于500g(被懷疑對(duì)象總是放在零假設(shè))。而且由于樣本均值少于500g(這是懷疑的根據(jù)),把備擇假設(shè)設(shè)定為總體均值少于500g (上面這種備選假設(shè)為單向不等式的檢驗(yàn)稱為單側(cè)檢驗(yàn),而備選假設(shè)為不等號(hào)“”的稱為雙側(cè)檢驗(yàn),后面會(huì)解釋)
于是我們有了原假設(shè)和備擇假設(shè)
:
引入相關(guān)庫、讀取數(shù)據(jù)如下
from scipy import stats
import scipy.stats
import numpy as np
import pandas as pd
import statsmodels.stats.weightstats
data = [493.01,498.83,494.16,500.39,497.63,499.72,493.41,498.97,501.94,503.45,497.47,494.19,500.99,495.81,499.63,494.91,498.90,502.43,491.34,497.50,505.95,496.56,501.66,492.02,497.68,493.48,505.40,499.21,505.84,499.41,505.65,500.51,489.53,496.55,492.26,498.91,496.65,496.38,497.16,498.91,490.98,499.97,501.21,502.85,494.35,502.96,506.21,497.66,504.66,492.11]
進(jìn)行z檢驗(yàn):
z, pval = statsmodels.stats.weightstats.ztest(data, value=500,alternative = 'smaller')
# 'two-sided': 樣本均值與給定的總體均值不同
# 'larger' : 樣本均值小于給定總體均值
# 'smaller' : 樣本均值大于給定總體均值
print(z,pval)
# -2.6961912076362085 0.0035068696715304876
結(jié)論: 選擇顯著性水平 0.05 的話,P=0.0035 < 0.05
, 故應(yīng)該拒絕原假設(shè)。具體來說就是該結(jié)果傾向于支持平均重量小于500g的備則假設(shè)。
例5.2 檢驗(yàn)汽車實(shí)際排放是否低于其聲稱的排放標(biāo)準(zhǔn)
汽車廠商聲稱其發(fā)動(dòng)機(jī)排放標(biāo)準(zhǔn)的一個(gè)指標(biāo)平均低于20個(gè)單位。在抽查了10臺(tái)發(fā)動(dòng)機(jī)之后,得到下面的排放數(shù)據(jù):
17.0 21.7 17.9 22.9 20.7 22.4 17.3 21.8 24.2 25.4
該樣本均值為21.13.究竟能否由此認(rèn)為該指標(biāo)均值超過20?
分析過程: 由于廠家聲稱指標(biāo)平均低于20個(gè)單位,因此原假設(shè)為總體均值等于20個(gè)單位(被懷疑對(duì)象總是放在零假設(shè))。而且由于樣本均值大于20(這是懷疑的根據(jù)),把備擇假設(shè)設(shè)定為總體均值大于20個(gè)單位
于是我們有了原假設(shè)和備擇假設(shè)
:
讀取數(shù)據(jù)如下
data = [17.0, 21.7, 17.9, 22.9, 20.7, 22.4, 17.3, 21.8, 24.2, 25.4]
進(jìn)行t檢驗(yàn)如下:
import scipy.stats
t, pval = scipy.stats.ttest_1samp(a = data, popmean=20,alternative = 'greater')
# 說明
# a 為給定的樣本數(shù)據(jù)
# popmean 為給定的總體均值
# alternative 定義備擇假設(shè)。以下選項(xiàng)可用(默認(rèn)為“two-sided”):
# ‘two-sided’:樣本均值與給定的總體均值(popmean)不同
# ‘less’:樣本均值小于給定總體均值(popmean)
# ‘greater’:樣本均值大于給定總體均值(popmean)
print(t, pval)
# '''
# P= 0.004793 < 5%, 拒絕原假設(shè),接受備擇假設(shè)樣本
# '''
結(jié)論: 選擇顯著性水平 0.01 的話,P=0.1243 > 0.05
, 故無法拒絕原假設(shè)。具體來說就是該結(jié)果無法支持指標(biāo)均值超過20的備則假設(shè)。
例5.3 檢驗(yàn)高爾夫球場(chǎng)女性球員比例是否因促銷活動(dòng)而升高
某高爾夫球場(chǎng)去年打球?????????的人當(dāng)中有20%是女性,為了增加女性球員的比例,該球場(chǎng)推出了一項(xiàng)促銷活動(dòng)來吸引更多的女性參加高爾夫運(yùn)動(dòng),在活動(dòng)實(shí)施了1個(gè)月后,球場(chǎng)的研究者想通過統(tǒng)計(jì)分析研究確定高爾夫球場(chǎng)的女性球員比例是否上升,收集到了400個(gè)隨機(jī)樣本,其中有100是女性
分析過程: 由于研究的是女性球員所占的比例是否上升,因此選擇上側(cè)檢驗(yàn)比較合適,備擇假設(shè)是比例大于20%
:
import numpy as np
from statsmodels.stats.proportion import proportions_ztest
count = 100
nobs = 400
p_0 = 0.2
p_bar = count/nobs
p_0 = 0.2
n = 400
# 執(zhí)行單一樣本比例檢驗(yàn) statsmodels.stats.proportion.proportions_ztest
z_statistic, p_value = proportions_ztest(count, nobs, value = p_0,alternative='larger',prop_var = value)
# 注:statsmodels.stats.proportion.proportions_ztest 的函數(shù)有幾個(gè)問題:講在第八節(jié)之后說明,感興趣的讀者請(qǐng)持續(xù)關(guān)注
# 打印結(jié)果
print("z統(tǒng)計(jì)量:", z_statistic)
print("p值:", p_value)
#z統(tǒng)計(jì)量: 2.4999999999999996
#p值: 0.006209665325776138
count = 100
nobs = 400
p_0 = 0.2
p_bar = count/nobs
p_0 = 0.2
n = 400
def calc_z_score(p_bar, p_0, n):
z = (p_bar - p_0) / (p_0 * (1 - p_0) / n)**0.5
return z
z = calc_z_score(p_bar, p_0, n)
p = stats.norm.sf(z)
# 打印結(jié)果
print("z統(tǒng)計(jì)量:", z)
print("p值:", p)
# z統(tǒng)計(jì)量: 2.4999999999999996
# p值: 0.006209665325776138
結(jié)論: 選擇顯著性水平 0.05 的話,P=0.0062 < 0.05
, 拒絕原假設(shè)。具體來說就是該結(jié)果支持特定的促銷活動(dòng)能夠提升該球場(chǎng)女性運(yùn)動(dòng)員比例的備則假設(shè)。
import numpy as np
from scipy import stats
def chi2test(sample_var, sample_num,sigma_square,side, alpha=0.05):
'''
參數(shù):
sample_var--樣本方差
sample_num--樣本容量
sigma_square--H0方差
返回值:
pval
'''
chi_square =((sample_num-1)*sample_var)/(sigma_square)
p_value = None
if side == 'two-sided':
p = stats.chi2(df=sample_num-1).cdf(chi_square)
p_value = 2*np.min([p, 1-p])
elif side == 'less':
p_value = stats.chi2(df=sample_num-1).cdf(chi_square)
elif side == 'greater':
p_value = stats.chi2(df=sample_num-1).sf(chi_square)
return chi_square,p_value
例5.4 檢驗(yàn)公交車到站時(shí)間的方差是否比規(guī)定標(biāo)準(zhǔn)大
某市中心車站為規(guī)范化提升市民對(duì)于公交車到站時(shí)間的滿意度,對(duì)于公交車的到站時(shí)間管理做了規(guī)定,標(biāo)準(zhǔn)是到站時(shí)間的方差不超過4。為了檢驗(yàn)時(shí)間的到站時(shí)間的方差是否過大,隨機(jī)抽取了24輛公交車的到站時(shí)間組成一個(gè)樣本,得到的樣本方差是 ,假設(shè)到站時(shí)間的總體分布符合正態(tài)分布,請(qǐng)分析總體方差是否過大。
分析過程: 由于研究的是方差是否過大,因此選擇上側(cè)檢驗(yàn)比較合適,備擇假設(shè)是方差大于4
于是我們有了原假設(shè)和備擇假設(shè)
:
chi_square,p_value = chi2test(sample_var = 4.9, sample_num = 24, sigma_square = 4,side='greater')
print("p值:", p_value)
# p值: 0.2092362676676498
結(jié)論: 選擇顯著性水平 0.05 的話,P=0.2092 > 0.05
, 無法拒絕原假設(shè)。具體來說就是該結(jié)果不支持方差變大的備則假設(shè)。
例5.5 檢驗(yàn)?zāi)晨荚囍行纳?jí)題庫后考生分?jǐn)?shù)的方差是否有顯著變化
某數(shù)據(jù)分析師認(rèn)證考試機(jī)構(gòu)CDA考試中心,歷史上的持證人考試分?jǐn)?shù)的方差為 ,現(xiàn)在升級(jí)了題庫,該考試中心希望新型考題的方差保持在原有水平上,為了研究該問題,收集到了30份新考題的考分組成的樣本,樣本方差是,在 的顯著性水平下進(jìn)行假設(shè)檢驗(yàn)。
分析過程:由于目標(biāo)是希望考試分?jǐn)?shù)的方差保持原有水平,因此選擇雙側(cè)檢驗(yàn)
于是我們有了原假設(shè)和備擇假設(shè)
:
p_value = chi2test(sample_var = 162, sample_num = 30, sigma_square = 100,side='two-sided')
print("p值:", p_value)
# p值: 0.07213100536907469
結(jié)論: 選擇顯著性水平 0.05 的話,P=0.0721 > 0.05
, 故無法拒絕原假設(shè)。具體來說就是不支持方差發(fā)生了變化的備則假設(shè)。
常見的兩總體差異性的假設(shè)檢驗(yàn)也分3個(gè)類型:均值、比例、方差
例5.6(數(shù)據(jù):drug.txt) 檢驗(yàn)?zāi)乘幬镌趯?shí)驗(yàn)組的指標(biāo)是否低于對(duì)照組
為檢測(cè)某種藥物對(duì)情緒的影響,對(duì)實(shí)驗(yàn)組的100名服藥者和對(duì)照組的150名非服藥者進(jìn)行心理測(cè)試,得到相應(yīng)的某指標(biāo)。需要檢驗(yàn)實(shí)驗(yàn)組指標(biāo)的總體均值是否大于對(duì)照組的指標(biāo)的總體均值。這里假定兩個(gè)總體獨(dú)立地服從正態(tài)分布。相應(yīng)的假設(shè)檢驗(yàn)問題為:
分析過程:由于目標(biāo)是檢驗(yàn)實(shí)驗(yàn)組指標(biāo)的總體均值是否大于對(duì)照組的指標(biāo)的總體均值,因此選擇上側(cè)檢驗(yàn)
于是我們有了原假設(shè)和備擇假設(shè)
:
data = pd.read_table("./t-data/drug.txt",sep = ' ')
data.sample(5)
ah | id |
---|---|
4.4 | 2 |
6.8 | 2 |
9.6 | 2 |
4.8 | 2 |
13.2 | 1 |
a = data[data['id']==1]['ah']
b = data[data['id']==2]['ah']
'''
H0: 實(shí)驗(yàn)組的均值等于對(duì)照組
H1: 實(shí)驗(yàn)組的均值大于對(duì)照組
'''
t, pval = scipy.stats.ttest_ind(a,b,alternative = 'greater')
print(t,pval)
# 0.9109168350628888 0.18161186154576608
結(jié)論: 選擇顯著性水平 0.05 的話,p = 0.1816 > 0.05
,無法拒絕H0,具體來說就是該結(jié)果無法支持實(shí)驗(yàn)組均值大于對(duì)照組的備則假設(shè)。
例5.7(數(shù)據(jù): diet.txt) 檢驗(yàn)減肥前后的重量是否有顯著性差異(是否有減肥效果)
這里有兩列50對(duì)減肥數(shù)據(jù)。其中一列數(shù)據(jù)(變量名before)是減肥前的重量,另一列(變量名after)是減肥后的重量(單位: 公斤),人們希望比較50個(gè)人在減肥前和減肥后的重量。
分析過程:這里不能用前面的獨(dú)立樣本均值差的檢驗(yàn),這是因?yàn)閮蓚€(gè)樣本并不獨(dú)立。每一個(gè)人減肥后的重量都和自己減肥前的重量有關(guān),但不同人之間卻是獨(dú)立的,所以應(yīng)該用配對(duì)樣本檢驗(yàn)。同時(shí),由于研究的是減肥前后的重量變化,期望減肥前的重量大于減肥后的重量,所以備擇假設(shè)是期望減肥前的重量大于減肥后的重量
于是我們有了原假設(shè)和備擇假設(shè):
:
data = pd.read_table("./t-data/diet.txt",sep = ' ')
data.sample(5)
before | after |
---|---|
58 | 50 |
76 | 71 |
69 | 65 |
68 | 76 |
81 | 75 |
a = data['before']
b = data['after']
stats.ttest_rel(a, b,alternative = 'greater')
# Ttest_relResult(statistic=3.3550474801424173, pvalue=0.000769424325484219)
結(jié)論 選擇顯著性水平 0.05 的話,p = 0.0007 < 0.05
,故應(yīng)該拒絕原假設(shè)。具體來說就是該結(jié)果傾向支持減肥前后的重量之差大于零(即減肥前重量大于減肥后,也就是有減肥效果)的備則假設(shè)。
import numpy as np
import scipy.stats as stats
def proportion_test(p1, p2, n1, n2, side='two-sided'):
"""
參數(shù):
p1: 樣本1的比例
p2: 樣本2的比例
n1: 樣本1的數(shù)量
n2: 樣本2的數(shù)量
side: 假設(shè)檢驗(yàn)的方向,可選'two-sided'(雙側(cè)檢驗(yàn),默認(rèn)), 'greater'(右側(cè)檢驗(yàn)), 'less'(左側(cè)檢驗(yàn))
返回值:
z_value: Z統(tǒng)計(jì)量的值
p_value: 對(duì)應(yīng)的p值
"""
p = (p1 * n1 + p2 * n2) / (n1 + n2)
se = np.sqrt(p * (1 - p) * (1 / n1 + 1 / n2))
z_value = (p1 - p2) / se
if side == 'two-sided':
p_value = 2 * (1 - stats.norm.cdf(np.abs(z_value)))
elif side == 'greater':
p_value = 1 - stats.norm.cdf(z_value)
elif side == 'less':
p_value = stats.norm.cdf(z_value)
else:
raise ValueError("Invalid side value. Must be 'two-sided', 'greater', or 'less'.")
return z_value, p_value
例5.8 檢驗(yàn)不同保險(xiǎn)客戶的索賠率是否存在差異
某保險(xiǎn)公司抽取了單身與已婚客戶的樣本,記錄了他們?cè)谝欢螖?shù)據(jù)內(nèi)的索賠次數(shù),計(jì)算了索賠率,現(xiàn)在需要檢驗(yàn)兩種保險(xiǎn)客戶的索賠率是否存在差異
分析過程:由于目標(biāo)比例是否有差異,因此選擇比例之差的雙側(cè)檢驗(yàn)
于是我們有了原假設(shè)和備擇假設(shè)
:
p1 = 0.14
p2 = 0.09
n1 = 250
n2 = 300
z_value, p_value = proportion_test(p1, p2, n1, n2, side='two-sided')
# 選擇雙側(cè)檢驗(yàn) alternative = 'two-sided'
print("Z_value:", z_value)
print("p_value:", p_value)
# Z_value: 1.846189280616294
# p_value: 0.0648647268570739
結(jié)論 選擇顯著性水平 0.05 的話,p = 0.0648 > 0.05
,故應(yīng)該拒絕原假設(shè)。具體來說就是該結(jié)果傾向支持兩種保險(xiǎn)客戶的索賠率存在差異的備則假設(shè)。
import numpy as np
from scipy import stats
def f_test_by_s_square(n1, n2, s1_square,s2_square, side ='two-sided'):
"""
n1 :樣本1的數(shù)量;n2 :樣本2的數(shù)量
s1_square:樣本1的方差;s2_square:樣本2的方差
# F_value :F統(tǒng)計(jì)量的值;# p_value :對(duì)應(yīng)的p值
"""
F_value = s1_square/s2_square
F = stats.f(dfn = n1-1, dfd = n2-1)
if side=='two-sided':
print("two-sided")
p_value = 2*min(F.cdf(F_value), 1-F.cdf(F_value))
return F_value,p_value
elif side=='greater':
print("greater")
p_value = 1-F.cdf(F_value)
return F_value,p_value
例5.9 檢驗(yàn)不同公交公司的校車到達(dá)時(shí)間的方差是否有差異
某學(xué)校的校車合同到期,先需要在A、B兩個(gè)校車供應(yīng)公司中選擇一個(gè),才有到達(dá)時(shí)間的方差作為衡量服務(wù)質(zhì)量的標(biāo)準(zhǔn),較低方差說明服務(wù)質(zhì)量穩(wěn)定且水平較高,如果方差相等,則會(huì)選擇價(jià)格更低的公司,,如果方差不等,則優(yōu)先考慮方差更低的公司。 現(xiàn)收集到了A公司的26次到達(dá)時(shí)間組成一個(gè)樣本,方差68,B公司16次到達(dá)時(shí)間組成一個(gè)樣本,方差是30,請(qǐng)檢驗(yàn)AB兩個(gè)公司的到達(dá)時(shí)間方差。
分析過程:由于目標(biāo)是希望的方差保持原有水平,因此選擇雙側(cè)檢驗(yàn)。兩總體方差之比用F檢驗(yàn),將方差較大的A視為總體1
于是我們有了原假設(shè)和備擇假設(shè)
:
f_statistic , p_value= f_test_by_s_square(n1=26, n2=16,s1_square=78,s2_square=20,side='two-sided')
# 選擇雙側(cè)檢驗(yàn)所以side='two-sided'
# 打印檢驗(yàn)結(jié)果
print("F statistic:", f_statistic)
print("p-value:", p_value)
#two-sided
#F statistic: 3.9
#p-value: 0.00834904415829052
結(jié)論 選擇顯著性水平 0.05 的話,p = 0.0083 < 0.05
,故拒絕原假設(shè)。結(jié)果傾向支持AB兩個(gè)公司的到達(dá)時(shí)間方差存在差異的備則假設(shè)。
例5.10 檢驗(yàn)修完P(guān)ython課程的學(xué)生是否比修完數(shù)據(jù)庫課程的學(xué)生考CDA的成績(jī)方差更大
某高校數(shù)據(jù)科學(xué)專業(yè)的學(xué)生,修完一門數(shù)據(jù)庫課程的41名學(xué)生考CDA的方差,修完P(guān)ython課程的31名學(xué)生考CDA的方差是,這些數(shù)據(jù)是否表明,修完數(shù)據(jù)庫的學(xué)生要比修完P(guān)ython的學(xué)生CDA成績(jī)的方差更大?
分析過程:由于目標(biāo)是希望修完P(guān)ython的學(xué)生CDA成績(jī)的方差更大,因此選擇上側(cè)檢驗(yàn)。兩總體方差之比用F檢驗(yàn),將方差較大的數(shù)據(jù)庫課程的考試成績(jī)視為總體1,另一個(gè)視為總體2,于是我們有了原假設(shè)和備擇假設(shè)
:
f_statistic , p_value= f_test_by_s_square(n1=41, n2=31,s1_square=120,s2_square=80,side='greater')# 打印檢驗(yàn)結(jié)果
# 選擇上側(cè)檢驗(yàn)所以side='greater'
print("F statistic:", f_statistic)
print("p-value:", p_value)
結(jié)論 選擇顯著性水平 0.05 的話,p = 0.1256 > 0.05,故無法原假設(shè)。結(jié)果無法支持修完數(shù)據(jù)庫的學(xué)生要比修完P(guān)ython的學(xué)生CDA成績(jī)的方差更大的備則假設(shè)。
關(guān)于知識(shí)的學(xué)習(xí),你會(huì)發(fā)現(xiàn)有很多相似的邏輯,抓住問題的本質(zhì)去理解的話就沒那么復(fù)雜了,比如概念題里面的 區(qū)別和聯(lián)系 延伸到數(shù)據(jù)分析里的差異性和相關(guān)性;再比如計(jì)算機(jī)數(shù)據(jù)結(jié)構(gòu)里的 樹、森林、網(wǎng)絡(luò) 到機(jī)器學(xué)習(xí)里面的決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò);再比如從 互聯(lián)網(wǎng)、區(qū)塊鏈到元宇宙,都是想通過技術(shù)的手段去刻畫客觀世界;算法應(yīng)用里面的圖像識(shí)別、語音識(shí)別,替代人的眼耳鼻舌身意中的前二者去感知世界。抓住了問題的本質(zhì)不僅可以幫助我們理解知識(shí),還可以將一個(gè)領(lǐng)域的知識(shí)或模型遷移到另一個(gè)領(lǐng)域加以創(chuàng)新和應(yīng)用。
假設(shè)檢驗(yàn)背后的故事:統(tǒng)計(jì)學(xué)史上最著名的女士品茶
下期將為大家?guī)?a href="http://www.3lll3.cn/bigdata/205066.html" style="text-decoration: none; color: #1e6bb8; word-wrap: break-word; font-weight: bold; border-bottom: 1px solid #1e6bb8;">《統(tǒng)計(jì)學(xué)極簡(jiǎn)入門》之方差分析
這里分享一個(gè)你一定用得到的小程序——CDA數(shù)據(jù)分析師考試小程序。
它是專為CDA數(shù)據(jù)分析認(rèn)證考試報(bào)考打造的一款小程序??梢詭湍憧焖賵?bào)名考試、查成績(jī)、查證書、查積分,通過該小程序,考生可以享受更便捷的服務(wù)。
掃碼加入CDA小程序,與圈內(nèi)考生一同學(xué)習(xí)、交流、進(jìn)步!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03