
1980年代末,漢斯拉伊大學(xué)(Hansraj College)經(jīng)濟學(xué)榮譽畢業(yè)生的平均薪酬約為每年100萬印度盧比。這一數(shù)字大大高于80年代初或90年代初畢業(yè)的人們。
他們平均水平如此之高的原因是什么呢?沙魯克·汗是印度收入最高的名人之一,1988年畢業(yè)于漢薩拉吉學(xué)院,當(dāng)時他在那里攻讀經(jīng)濟學(xué)榮譽學(xué)位。
這一點,以及還有很多的例子都會告訴我們,平均值并不是很好的可以指示出數(shù)據(jù)的中心在哪里。它可能會受到異常值的影響。在這種情況下,查看中位數(shù)是更好的選擇。 它是一個很好的數(shù)據(jù)中心的指示器,因為一半數(shù)據(jù)位于中間值以下,另一半位于中間值上方。
到目前為止,一切都很好——我相信你已經(jīng)看到人們早些時候提出了這一點。問題是沒有人告訴你如何進行像假設(shè)檢驗這樣的分析。
統(tǒng)計檢驗用于制定決策。為了使用中位數(shù)進行分析,我們需要使用非參數(shù)檢驗。非參數(shù)測試是分布獨立的檢驗,而參數(shù)檢驗假設(shè)數(shù)據(jù)是正態(tài)分布的。說參數(shù)檢驗比非參數(shù)檢驗更加的臭名昭著是沒有錯的,但是前者沒有考慮中位數(shù),而后者則使用中位數(shù)來進行分析。
接下來我們就進入非參數(shù)檢驗的內(nèi)容。
**注意:**本文假定你具有假設(shè)檢驗,參數(shù)檢驗,單尾檢驗和雙尾檢驗的先決知識。
1.非參數(shù)測試與參數(shù)測試有何不同?
當(dāng)總體參數(shù)的信息完全已知時使用參數(shù)檢驗,而當(dāng)總體參數(shù)的信息沒有或很少使用非參數(shù)檢驗,簡單的說,參數(shù)檢驗假設(shè)數(shù)據(jù)是正態(tài)分布的。然而,非參數(shù)檢驗對數(shù)據(jù)沒有任何分布。
但是參數(shù)是什么?參數(shù)不過是無法更改的總體特征。讓我們看一個例子來更好地理解這一點。
一位老師使用以下公式計算了班級學(xué)生的平均成績:
看上面給出的公式,老師在計算總分時已經(jīng)考慮了所有學(xué)生的分數(shù)。假設(shè)學(xué)生的分數(shù)是準(zhǔn)確的,并且沒有遺漏的分數(shù),你是否可以更改學(xué)生的總分數(shù)?并不可以。因此,平均分被稱為總體的一個參數(shù),因為它不能被改變。
2.什么時候可以應(yīng)用非參數(shù)檢驗?
讓我們看一些例子。
1.比賽的獲勝者由名詞決定,而名次是根據(jù)越過終點線來進行排名的?,F(xiàn)在,第一個越過終點線的人排名第一,第二個越過終點線的人排名第二,依此類推。我們不知道獲勝者是以多遠的距離擊敗了另一個人,因此區(qū)別是未知的。
2.有20人接受了一個療程的治療,并且通過調(diào)查記錄他們的癥狀。遵循治療過程后,要求患者在5個類別中進行選擇。調(diào)查看起來像這樣:
現(xiàn)在,如果你仔細查看上述調(diào)查中的值可以發(fā)現(xiàn),值是不可以擴展的,它是基于病人的經(jīng)驗來判斷的。而且,評分是被分配的而不是被計算的。在這種情況下,參數(shù)檢驗無效。
對于名義數(shù)據(jù),不存在任何參數(shù)檢驗。
3.檢測極限是值通過給定的分析方法可以檢測到的物質(zhì)的最低數(shù)量,但是不一定要將其定量為精確值。例如,病毒載量就是你血液中的HIV含量。病毒載量可以超出檢測極限,也可以更高的數(shù)量。
4.在上面的平均薪酬方案的例子中,沙魯克的收入是一個離群值。什么是離群值?沙魯克的收入與其他經(jīng)濟學(xué)專業(yè)畢業(yè)生的收入相距異常。因此,沙魯克的收入在這里變得異常,因為它與數(shù)據(jù)中的其他值之間存在異常距離。
總而言之,非參數(shù)檢驗可以應(yīng)用于以下情況:
這里要注意的一點是,如果存在一個針對問題的參數(shù)檢驗,則使用非參數(shù)檢驗將產(chǎn)生非常不準(zhǔn)確的答案。
3.使用非參數(shù)檢驗的優(yōu)缺點
在上面的討論中,你可能已經(jīng)注意到,我提到了使用非參數(shù)測試可能有利或不利的幾點,因此現(xiàn)在讓我們共同來看一下這些點。
優(yōu)點
使用非參數(shù)檢驗而不是參數(shù)檢驗的優(yōu)點是
1.即使樣本量很小,非參數(shù)測試也可以提供準(zhǔn)確的結(jié)果。
2.當(dāng)正態(tài)性假設(shè)被違背時,非參數(shù)檢驗比參數(shù)檢驗更加有效。
3.它們適用于所有數(shù)據(jù)類型,例如標(biāo)稱,序數(shù),間隔或具有離群值的數(shù)據(jù)。
缺點
1.如果數(shù)據(jù)進行任何參數(shù)檢驗,那么使用非參數(shù)檢驗可能是一個可怕的錯誤。
2.非參數(shù)檢驗的臨界值表未包含在許多計算機軟件包中,因此這些測試需要更多的手工計算。
4.非參數(shù)檢驗的假設(shè)檢驗
現(xiàn)在你知道非參數(shù)檢驗對總體參數(shù)無所謂,因此它不對父級總體的均值、標(biāo)準(zhǔn)差等做出任何假設(shè)。這里的零假設(shè)是一般的,因為兩個給定的總體是相等的。
進行非參數(shù)檢驗時應(yīng)遵循的步驟:
第一步是建立假設(shè)并選擇一個顯著性水平
現(xiàn)在,讓我們看看這兩個是什么
假設(shè):我的預(yù)測是Rahul會贏得比賽,另一個可能的結(jié)果是Rahul不會贏得比賽。這些都是我的假設(shè)。我的備擇假設(shè)是Rahul將贏得比賽,因為我們將讓備擇假設(shè)等于我們想要證明的。零假設(shè)是相反的假設(shè),通常零假設(shè)是沒有差異的陳述。例如,
零假設(shè):H0:樣本均值與總體均值之間沒有顯著性差異
備擇假設(shè):H1:樣本均值與總體均值之間存在顯著性差異
顯著性水平: 它是做出錯誤決定的可能性。在上述假設(shè)陳述中,零假設(shè)表示樣本和總體均值之間沒有差異。假設(shè)樣本均值和總體均值之間沒有差異時,拒絕零假設(shè)的風(fēng)險為5%。這種拒絕零假設(shè)成立的風(fēng)險或可能性稱為顯著性水平。
顯著性水平用α表示
在非參數(shù)檢驗中,根據(jù)研究的興趣,假設(shè)檢驗可以是單側(cè)或雙側(cè)。
2.設(shè)置測試統(tǒng)計信息
要了解什么是統(tǒng)計量,讓我們看一個例子。一位老師計算了A部分學(xué)生的平均成績,例如36分,她使用A部分學(xué)生的平均成績來表示B,C和D部分學(xué)生的平均成績。這里要注意的是,老師沒有使用學(xué)生在所有部分中獲得的總成績,而是使用了A部分的平均成績。在這里,平均成績被稱為統(tǒng)計信息,因為老師沒有使用整個數(shù)據(jù)。
在非參數(shù)檢驗中,將觀察到的樣本轉(zhuǎn)換為等級,然后將等級視為檢驗統(tǒng)計量。
3.設(shè)定決策規(guī)則
決策規(guī)則只是告訴我們何時拒絕原假設(shè)的一個語句。
4.計算檢驗統(tǒng)計量
在非參數(shù)檢驗中,我們使用等級來計算檢驗統(tǒng)計量。
5.將檢驗統(tǒng)計量與決策規(guī)則進行比較
在這里,你將接受或拒絕基于比較的零假設(shè)。
在討論非參數(shù)檢驗的類型時,我們將更深入地研究這一部分。
5.非參數(shù)測試
1.曼·惠特尼U檢驗(Mann Whitney U test)
也稱為曼惠特尼威爾科克森(Mann Whitney Wilcoxon)和威爾科克森秩和檢驗(Wilcoxon rank sum test),是獨立樣本t檢驗的一種替代方法。讓我們通過一個例子來理解這一點。
一個制藥組織創(chuàng)造了一種新的藥物來治療夢游,一個月后對5名患者進行了觀察。另一組5人已經(jīng)服用了舊藥物一個月。然后,該組織要求個人記錄上個月的夢游病例數(shù)。結(jié)果是:
如果你看這張表,服用新藥的一個月內(nèi)發(fā)生夢游的病例比服用老藥的少。
查看下面給出的圖形。
現(xiàn)在,在這里你可以看到當(dāng)一個人服用新藥時,他發(fā)生夢游的幾率會降低。
理解這個問題了嗎?我們來看看Mann Whitney U測試是如何工作的。我們很想知道服用不同藥物的兩組報告的夢游病例數(shù)是否相同。假設(shè)如下:
H0:兩組報告的病例數(shù)量相同
H1:兩組報告的病例數(shù)不同
我選擇5%的顯著性水平進行測試。下一步是設(shè)置一個測試統(tǒng)計信息。
對于Mann Whitney U檢驗,檢驗統(tǒng)計量由U 表示,U是U 1 和U 2 的最小值。
$$
$$其中r1為第一組的秩和,r2為第二組的秩和,n1為第一組的大小,n2為第二組的大小。
現(xiàn)在,我們將通過合并這兩組來計算秩?,F(xiàn)在的問題是
如何分配秩?
秩是非參數(shù)檢驗的非常重要的組成部分,因此,學(xué)習(xí)如何為樣本分配秩非常重要。讓我們學(xué)習(xí)如何分配秩。
1.我們將兩個樣本合并,并按升序排列。我分別對舊藥和新藥使用OD和ND來代替。
NDNDNDNDNDODODODODOD樣本1123447889
此處,最小值被賦值為1,第二個最小值被賦值為2,依此類推。
NDNDNDNDNDODODODODOD樣本1123447889秩12345678910
但是請注意,數(shù)字1、4和8在組合樣本中出現(xiàn)了多次。因此分配的秩是錯誤的。
樣本中有聯(lián)系時如何分配秩呢?
聯(lián)系基本上是一個樣本中出現(xiàn)多次的數(shù)字。排序數(shù)據(jù)后,查看樣本中數(shù)字1的位置。在這里,數(shù)字1出現(xiàn)在第一和第二位置。在這種情況下,我們?nèi)?和2的平均值(因為數(shù)字1出現(xiàn)在第一和第二位置),并將平均值分配給數(shù)字1,如下所示。我們對數(shù)字4和8遵循相同的步驟。這里的數(shù)字4出現(xiàn)在第5位和第6位上,它們的均值為5.5,因此我們將數(shù)字5.5分配給數(shù)字4。沿這些行計算數(shù)字8的等級。
NDNDNDNDNDODODODODOD樣本1123447889秩1.51.5345.55.578.58.510
當(dāng)樣本中存在聯(lián)系時,我們分配平均秩,以確保每個大小為n的樣本的秩和相同。因此,秩和將始終等于\frac{n(n+1)}{2}2n(n+1)2.下一步是計算組1和組2的秩和。
R 1 = 15.5R 2 = 39.5
3.使用U 1 和U 2 的公式,計算它們的值。
U 1 = 24.5U 2 = 0.5
現(xiàn)在,U = min(U 1 ,U 2 )= 0.5
注意:對于Mann Whitney U test,U的值在(0,n 1 * n 2 )范圍內(nèi),其中0表示兩組完全不同,n 1 * n 2 表示兩組之間存在一定的關(guān)系。而且,U 1 + U 2 始終等于n 1 * n 2 。請注意,此處的U值為0.5,非常接近0。
現(xiàn)在,我們使用臨界值表來確定臨界值(用p表示), 該值是從檢驗的顯著性水平得出的一個點 ,用于拒絕或接受無效假設(shè)。在Mann Whitney U test中,檢驗標(biāo)準(zhǔn)為
接受H0:U ≤ 臨界值
拒接H0:U > 臨界值
在這里,p = 2
U <臨界值,因此,我們拒絕零假設(shè),并得出結(jié)論,沒有重要證據(jù)表明兩組報告的夢游病例數(shù)目相同。
2.威爾科克森符號秩檢驗(Wilcoxon Sign-Rank Test)
當(dāng)樣本違反正態(tài)分布假設(shè)時,就可以使用該檢驗代替配對t檢驗。
一位老師在課堂上教了一個新題,并決定在第二天進行突擊測驗。一共有6名學(xué)生接受了測試,滿分為10分,第一次測試分數(shù)如下:
注意:假定以下數(shù)據(jù)違反了正態(tài)分布的假設(shè)。
學(xué)生123456分數(shù)864256
現(xiàn)在,老師決定在一周的自習(xí)課中再次參加考試。分數(shù)如下
學(xué)生123456分數(shù)6889410
讓我們檢查一下一周后的學(xué)生成績是否有所提高。
學(xué)生第一次測試第二次測試差異(第二次分數(shù)-第一次分數(shù))188-2268234844297554-166104
在上表中,在某些情況下,學(xué)生的得分比以前低,并且在某些情況下,學(xué)生4的進步相對較高。這可能是由于隨機效應(yīng)。我們將使用此測試分析差異是系統(tǒng)的還是偶然的。
下一步對差值的絕對值進行排序。請注意,只有在按升序排列數(shù)據(jù)后才能執(zhí)行此操作。
差異秩-1122.5-22.544.544.576
在Wilcoxon sign-rank test中,我們需要符號秩,基本上是將與差異相關(guān)的符號分配給秩,如下所示。
差異秩符號秩-11-122.52.5-22.5-2.544.54.544.54.5766
容易吧?那么現(xiàn)在的假設(shè)是什么?
H0:正秩和
H1:負秩和
假設(shè)可以是單側(cè)的,也可以是雙側(cè)的,我使用單側(cè)假設(shè),使用5%的顯著性水平。因此,α=0.05
此測試的測試統(tǒng)計量是W在下面定義的W 1 和W 2中的較小者:
W1:正秩和
W2:負秩和
W 1 = 17.5
W 2 = 3.5
W =min(W 1 ,W 2 )= 3.5
在這里,如果W 1 與W 2 相似,那么我們接受零假設(shè)。否則,在中,如果差異反映出學(xué)生得分的提高,則我們拒絕原假設(shè)。
W的臨界值可以在表中查到。
接受或拒絕零假設(shè)的標(biāo)準(zhǔn)是
接受H0:W ≤ 臨界值
拒絕H0:W>臨界值
**在這里,W>臨界值= 2,因此我們接受零假設(shè)并得出結(jié)論,兩個檢驗的分數(shù)之間沒有顯著差異。 **
W
在這里,W>臨界值= 2,因此我們接受零假設(shè)并得出結(jié)論,兩個測試的標(biāo)記之間沒有顯著差異。
3.符號檢驗(Sign Test)
該檢驗與Wilcoxon Sign-Rank Test相似,如果數(shù)據(jù)違反正態(tài)性假設(shè),也可以用它代替配對t檢驗。我將使用在Wilcoxon Sign-Rank Test中使用的相同例子(假設(shè)它不遵循正態(tài)分布)來解釋符號測試。
讓我們再次查看數(shù)據(jù)。
學(xué)生第一次測試第二次測試差異(第二次分數(shù)-第一次分數(shù))符號186-2-2682+3484+4297+554-1-66104+
在Sign Test中,我們沒有考慮大小,因此忽略了等級。假設(shè)與以前相同。
H0:中位數(shù)差為0
H1:中位數(shù)差為正
在這里,如果我們看到相同數(shù)量的正差和負差,則零假設(shè)成立。否則,如果我們看到更多的正號,則拒絕零假設(shè)。
測試統(tǒng)計量:此處的測試統(tǒng)計量小于正負號的數(shù)量。
確定臨界值,拒絕和接受原假設(shè)的標(biāo)準(zhǔn)為:
接受H0:如果+和-的符號數(shù)量≤臨界值
拒絕H0:如果+和-的符號數(shù)量>臨界值
在這里,+&–符號的較小數(shù)目= 2 <臨界值=6。因此,我們拒絕零假設(shè),并得出結(jié)論,沒有明顯的證據(jù)表明中位數(shù)差為零。
4.秩和檢驗(Kruskal-Wallis Test)
當(dāng)你處理兩個以上的獨立群體時,該測試是非常有用的,它可以比較k個群體的中位數(shù)。當(dāng)數(shù)據(jù)違反了正態(tài)分布的假設(shè)并且樣本量太小時,此測試可以替代單因素方差分析。注意:Kruskal-Wallis Test可用于連續(xù)和有序級別的因變量。
讓我們看一個例子,以增強我們對Kruskal-Wallis Test的理解。
登革熱患者分為3組,并給予三種不同類型的治療。經(jīng)過3天的療程后,患者的血小板計數(shù)如下。
治療方法1治療方法2治療方法3420006700078000480005700089000570007900067000690008000045000
請注意,三種治療的樣本量不同,可以使用Kruskal-Wallis Test來解決。
處理1、2和3的樣本量如下:
方法1;n 1 = 5
方法2;n 2 = 3
處理3;n 3 = 4
n = n 1 + n 2 + n 3 = 5 + 3 + 4 = 12
假設(shè)在下面給出,選擇5%的顯著性水平
H0:三種方法的中位數(shù)相同
H1:三種方法的中位數(shù)不同
將這些樣本從最小到最大進行排序,然后將秩分給樣本。
回想一下,秩和將始終等于n(n + 1)/ 2。
在這里,秩和= 78
n(n + 1)/ 2 =(12 * 13)/ 2 = 78
我們必須檢查3個總體中位數(shù)之間是否存在差異,因此我們將基于秩在檢驗統(tǒng)計數(shù)據(jù)中匯總樣本信息。在此,測試統(tǒng)計量由H表示,并由以下公式給出H=\left(\frac{12}{n(n+1)} \sum_{j=1}^{k} \frac{R_{j}^{2}}{n_{j}}\right)-3(n+1)H=(n(n+1)12j=1∑knjRj2)?3(n+1)在這里 :k=比較的組數(shù),
n=總樣本大小,
nj=第j組的樣本量,
Rj=第j組的秩和。
下一步就是利用臨界值確定H的臨界值,測試標(biāo)準(zhǔn)如下:
接受H0:H ≥ 臨界值
拒絕H0:H<臨界值
H的值計算出來是6.0778,臨界值為5.656。因此,我們拒絕零假設(shè),并得出結(jié)論,沒有重要證據(jù)表明這三個總體中位數(shù)相同。
注意:在Kruskal-Wallis Test中,如果有3個或更多獨立的比較組,每組中有5個或更多觀察值,則檢驗統(tǒng)計量H近似為k-1自由度的卡方分布。因此,在這種情況下,你可以在卡方分布表中找到檢驗的臨界值作為臨界值。
5.斯皮爾曼等級相關(guān)性(Spearman Rank Correlation)
假如我去市場買了一條裙子,巧合的是,我的朋友從她附近的市場上買了同一條裙子,但她為此付出了更高的價錢。與我的朋友相比,我朋友家附近的市場更加昂貴。那么,地區(qū)會影響商品價格嗎?如果確實如此,那么該地區(qū)與商品價格之間便存在聯(lián)系。我們在這里使用斯皮爾曼等級相關(guān)性是因為它確定兩個數(shù)據(jù)集之間是否存在相關(guān)性。
蔬菜的價格因地區(qū)而異。我們可以使用斯皮爾曼等級相關(guān)性來檢查蔬菜價格和面積之間是否存在關(guān)系。這里的假設(shè)是:
H0:價格與面積無關(guān)
H1:價格與面積有關(guān)
在這里,趨勢線表明蔬菜價格與面積之間呈正相關(guān)。但是,應(yīng)使用斯皮爾曼等級相關(guān)性檢查相關(guān)方向和強度。
斯皮爾曼等級相關(guān)性是皮爾遜相關(guān)系數(shù)的非參數(shù)替代,用Rs表示。Rs的取值范圍(-1,1),其中
-1代表秩之間存在負相關(guān)關(guān)系
0代表秩之間沒有相關(guān)性
1代表秩之間存在正相關(guān)性
將秩分配給樣本后,使用以下公式計算S斯皮爾曼秩相關(guān)系數(shù)。
Case 1 :當(dāng)數(shù)據(jù)中沒有聯(lián)系時\rho=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)}ρ=1?n(n2?1)6∑di2Case 2:當(dāng)數(shù)據(jù)中有聯(lián)系時\rho=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(\left(R\left(x_{i}\right)-R(\bar{x})\right)\left(R\left(y_{i}\right)-R(\bar{y})\right)\right)}{\sqrt{\left(\frac{1}{n} \sum_{i=1}^{n}\left(R\left(x_{i}\right)-R(\bar{x})\right)^{2}\right)\left(\frac{1}{n} \sum_{i=1}^{n}\left(R\left(y_{i}\right)-R(\bar{y})\right)^{2}\right)}}ρ=(n1∑i=1n(R(xi)?R(xˉ))2)(n1∑i=1n(R(yi)?R(yˉ))2)n1∑i=1n((R(xi)?R(xˉ))(R(yi)?R(yˉ)))在這里R(x)和R(y)為秩,R(xbar)和R(ybar)為平均秩
讓我們通過一個例子來理解這些公式的應(yīng)用。下表包括學(xué)生的數(shù)學(xué)和科學(xué)的的分數(shù)。
零假設(shè)表示標(biāo)記之間沒有關(guān)系,備擇假設(shè)指出標(biāo)記之間有關(guān)系。選擇5%的顯著性水平進行測試
數(shù)學(xué)56754571626458807661科學(xué)66704060655659776763
現(xiàn)在計算秩和d,d是秩和n之間的差值,而n是樣本大小=10。執(zhí)行以下操作:
數(shù)學(xué)56754571626458807661科學(xué)66704060655659776763等級(M)93104658127等級(S)42107598136d5103140011d平方(d-square)251091160011
現(xiàn)在,使用該公式計算斯皮爾曼等級相關(guān)系數(shù)。因此,斯皮爾曼等級相關(guān)性為0.67,這表明在數(shù)學(xué)和科學(xué)測試中獲得的學(xué)生排名之間呈正相關(guān),這意味著你在數(shù)學(xué)中的排名越高,你在科學(xué)中的排名越高,反之亦然。
你也可以通過使用顯著性水平和樣本量確定臨界值來檢查此情況。拒絕或接受零假設(shè)的標(biāo)準(zhǔn)為:
接受H0:|rs| ≥臨界值
拒絕H0:|rs|<臨界值
注意:此處的自由度為n-2。
臨界值為0.033,小于0.67因此我們拒絕零假設(shè)。
結(jié)束
當(dāng)參數(shù)檢驗的假設(shè)被違反時,非參數(shù)檢驗將更強大,并且可以用于所有數(shù)據(jù)類型,例如標(biāo)稱,有序,區(qū)間以及數(shù)據(jù)具有離群值的情況。如果任何參數(shù)檢驗對問題是有效的,則使用非參數(shù)檢驗將給出非常不準(zhǔn)確的結(jié)果。
總而言之,
Mann Whitney U Test用于檢驗兩組獨立組間的差異,分別為有序因變量和連續(xù)因變量
Wilcoxon sign rank test用于檢驗兩個相關(guān)變量之間的差異,該差異考慮了差異的大小和方向,但是Sign檢驗忽略了大小,僅考慮了差異的方向。
Kruskal-Wallis Test通過使用中位數(shù)比較了兩個以上獨立組的結(jié)果。
Spearman Rank Correlation技術(shù)用于檢查兩個數(shù)據(jù)集之間是否存在關(guān)聯(lián),還可以說明關(guān)聯(lián)的類型。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10