
通俗理解T檢驗(yàn)與F檢驗(yàn)的區(qū)別
1.T檢驗(yàn)和F檢驗(yàn)的由來
一般而言,為了確定從樣本(sample)統(tǒng)計(jì)結(jié)果推論至總體時(shí)所犯錯(cuò)的概率,我們會(huì)利用統(tǒng)計(jì)學(xué)家所開發(fā)的一些統(tǒng)計(jì)方法,進(jìn)行統(tǒng)計(jì)檢定。
通過把所得到的統(tǒng)計(jì)檢定值【1】,與統(tǒng)計(jì)學(xué)家建立了一些隨機(jī)變量的概率分布(probability
distribution)進(jìn)行比較,我們可以知道在多少%的機(jī)會(huì)下會(huì)得到目前的結(jié)果。倘若經(jīng)比較后發(fā)現(xiàn),出現(xiàn)這結(jié)果的機(jī)率很少,亦即是說,是在機(jī)會(huì)很少、很罕有的情況下才出現(xiàn);那我們便可以有信心的說,這不是巧合,是具有統(tǒng)計(jì)學(xué)上的意義的(用統(tǒng)計(jì)學(xué)的話講,就是能夠拒絕虛無假設(shè)null
hypothesis,Ho)。相反,若比較后發(fā)現(xiàn),出現(xiàn)的機(jī)率很高,并不罕見;那我們便不能很有信心的直指這不是巧合,也許是巧合,也許不是,但我們沒能確定。
F值和t值就是這些統(tǒng)計(jì)檢定值,與它們相對(duì)應(yīng)的概率分布,就是F分布和t分布。統(tǒng)計(jì)顯著性(sig【2】)就是出現(xiàn)目前樣本這結(jié)果的機(jī)率。
【1】統(tǒng)計(jì)檢定值與統(tǒng)計(jì)量
統(tǒng)計(jì)量是統(tǒng)計(jì)理論中用來對(duì)數(shù)據(jù)進(jìn)行分析、檢驗(yàn)的變量。常用的統(tǒng)計(jì)量包括:N、P、樣本平均數(shù)、樣本方差等。
統(tǒng)計(jì)學(xué)中常常提到Z統(tǒng)計(jì)量,T統(tǒng)計(jì)量等。F值和t值就是這些統(tǒng)計(jì)檢定值,因此可以說這些檢定值也稱為統(tǒng)計(jì)量。但要注意到,Z檢驗(yàn)計(jì)算表示的是z分布圖形左側(cè)面積,而t檢驗(yàn)、F檢驗(yàn)、卡方檢驗(yàn)計(jì)算的所代表的是分布圖形右側(cè)的面積。 【2】sig:significance,意為“顯著性”
2.統(tǒng)計(jì)學(xué)意義(sig值【3】和 P值【4】) 結(jié)果的統(tǒng)計(jì)學(xué)意義是結(jié)果真實(shí)程度(能夠代表總體)的一種估計(jì)方法。專業(yè)上,p值為結(jié)果可信程度的一個(gè)遞減指標(biāo),p值越大,我們?cè)讲荒苷J(rèn)為樣本中變量的關(guān)聯(lián)是總體中各變量關(guān)聯(lián)的可靠指標(biāo)。p值是將觀察結(jié)果認(rèn)為有效即具有總體代表性的犯錯(cuò)概率。如p=0.05提示樣本中變量關(guān)聯(lián)有5%的可能是由于偶然性造成的。即假設(shè)總體中任意變量間均無關(guān)聯(lián),我們重復(fù)類似實(shí)驗(yàn),會(huì)發(fā)現(xiàn)約20個(gè)實(shí)驗(yàn)中有一個(gè)實(shí)驗(yàn),我們所研究的變量關(guān)聯(lián)將等于或強(qiáng)于我們的實(shí)驗(yàn)結(jié)果。(這并不是說如果變量間存在關(guān)聯(lián),我們可得到5%或95%次數(shù)的相同結(jié)果,當(dāng)總體中的變量存在關(guān)聯(lián),重復(fù)研究和發(fā)現(xiàn)關(guān)聯(lián)的可能性與設(shè)計(jì)的統(tǒng)計(jì)學(xué)效力有關(guān)。)在許多研究領(lǐng)域,0.05的p值通常被認(rèn)為是可接受錯(cuò)誤的邊界水平。
【3】顯著水平:代表是原假設(shè)為真是但卻將其拒絕時(shí)(拒真),所犯第一類錯(cuò)誤的概率。 【4】P值:p值是根據(jù)檢驗(yàn)統(tǒng)計(jì)量(z、t、F等)所計(jì)算出來的概率值,它依據(jù)樣本來衡量是否有足夠的證據(jù)來推翻原假設(shè)。p值越小,越應(yīng)該拒絕原假設(shè)H0。(要注意的是p值只能保證用來拒絕原假設(shè),并不能保證一定能夠接受原假設(shè),雖然我們通常在p值較大時(shí)接受原假設(shè)。)
3.T檢驗(yàn)和F檢驗(yàn)
至於具體要檢定的內(nèi)容,須看你是在做哪一個(gè)統(tǒng)計(jì)程序。
舉一個(gè)例子,比如,你要檢驗(yàn)兩獨(dú)立樣本均數(shù)差異是否能推論至總體,而行的t檢驗(yàn)。
兩樣本(如某班男生和女生)某變量(如身高)的均數(shù)并不相同,但這差別是否能推論至總體,代表總體的情況也是存在著差異呢?
會(huì)不會(huì)總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數(shù)值不同?
為此,我們進(jìn)行t檢定,算出一個(gè)t檢定值。
與統(tǒng)計(jì)學(xué)家建立的以「總體中沒差別」作基礎(chǔ)的隨機(jī)變量t分布進(jìn)行比較,看看在多少%的機(jī)會(huì)(亦即顯著性sig值)下會(huì)得到目前的結(jié)果。
若顯著性sig值很少,比如<0.05(少於5%機(jī)率),亦即是說,「如果」總體「真的」沒有差別,那麼就只有在機(jī)會(huì)很少(5%)、很罕有的情況下,才會(huì)出現(xiàn)目前這樣本的情況。雖然還是有5%機(jī)會(huì)出錯(cuò)(1-0.05=5%),但我們還是可以「比較有信心」的說:目前樣本中這情況(男女生出現(xiàn)差異的情況)不是巧合,是具統(tǒng)計(jì)學(xué)意義的,「總體中男女生不存差異」的虛無假設(shè)應(yīng)予拒絕,簡(jiǎn)言之,總體應(yīng)該存在著差異。
每一種統(tǒng)計(jì)方法的檢定的內(nèi)容都不相同,同樣是t-檢定,可能是上述的檢定總體中是否存在差異,也同能是檢定總體中的單一值是否等於0或者等於某一個(gè)數(shù)值。
至於F-檢定,方差分析(或譯變異數(shù)分析,Analysis
of
Variance),它的原理大致也是上面說的,但它是透過檢視變量的方差而進(jìn)行的。它主要用于:均數(shù)差別的顯著性檢驗(yàn)、分離各有關(guān)因素并估計(jì)其對(duì)總變異的作用、分析因素間的交互作用、方差齊性(Equality
of Variances)檢驗(yàn)等情況。
4.T檢驗(yàn)和F檢驗(yàn)的關(guān)系
t檢驗(yàn)過程,是對(duì)兩樣本均數(shù)(mean)差別的顯著性進(jìn)行檢驗(yàn)。惟t檢驗(yàn)須知道兩個(gè)總體的方差(Variances)是否相等;t檢驗(yàn)值的計(jì)算會(huì)因方差是否相等而有所不同。也就是說,t檢驗(yàn)須視乎方差齊性(Equality
of Variances)結(jié)果。所以,SPSS在進(jìn)行t-test for Equality of Means的同時(shí),也要做Levene's
Test for Equality of Variances 。
1.在Levene's Test for Equality of Variances一欄中 F值為2.36, Sig.為.128,表示方差齊性檢驗(yàn)「沒有顯著差異」,即兩方差齊(Equal Variances),故下面t檢驗(yàn)的結(jié)果表中要看第一排的數(shù)據(jù),亦即方差齊的情況下的t檢驗(yàn)的結(jié)果。 2.在t-test for Equality of Means中,第一排(Variances=Equal)的情況:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然Sig=.000,亦即,兩樣本均數(shù)差別有顯著性意義! 3.到底看哪個(gè)Levene's Test for Equality of Variances一欄中sig,還是看t-test for Equality of Means中那個(gè)Sig. (2-tailed)啊? 答案是:兩個(gè)都要看。 先看Levene's Test for Equality of Variances,如果方差齊性檢驗(yàn)「沒有顯著差異」,即兩方差齊(Equal Variances),故接著的t檢驗(yàn)的結(jié)果表中要看第一排的數(shù)據(jù),亦即方差齊的情況下的t檢驗(yàn)的結(jié)果。 反之,如果方差齊性檢驗(yàn)「有顯著差異」,即兩方差不齊(Unequal Variances),故接著的t檢驗(yàn)的結(jié)果表中要看第二排的數(shù)據(jù),亦即方差不齊的情況下的t檢驗(yàn)的結(jié)果。 4.你做的是T檢驗(yàn),為什么會(huì)有F值呢?
就是因?yàn)橐u(píng)估兩個(gè)總體的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要檢驗(yàn)方差,故所以就有F值。
另一種解釋:t檢驗(yàn)有單樣本t檢驗(yàn),配對(duì)t檢驗(yàn)和兩樣本t檢驗(yàn)。
單樣本t檢驗(yàn):是用樣本均數(shù)代表的未知總體均數(shù)和已知總體均數(shù)進(jìn)行比較,來觀察此組樣本與總體的差異性。 配對(duì)t檢驗(yàn):是采用配對(duì)設(shè)計(jì)方法觀察以下幾種情形,1,兩個(gè)同質(zhì)受試對(duì)象分別接受兩種不同的處理;2,同一受試對(duì)象接受兩種不同的處理;3,同一受試對(duì)象處理前后。 F檢驗(yàn)又叫方差齊性檢驗(yàn)。在兩樣本t檢驗(yàn)中要用到F檢驗(yàn)。
從兩研究總體中隨機(jī)抽取樣本,要對(duì)這兩個(gè)樣本進(jìn)行比較的時(shí)候,首先要判斷兩總體方差是否相同,即方差齊性。若兩總體方差相等,則直接用t檢驗(yàn),若不等,可采用t'檢驗(yàn)或變量變換或秩和檢驗(yàn)等方法。
其中要判斷兩總體方差是否相等,就可以用F檢驗(yàn)。
若是單組設(shè)計(jì),必須給出一個(gè)標(biāo)準(zhǔn)值或總體均值,同時(shí),提供一組定量的觀測(cè)結(jié)果,應(yīng)用t檢驗(yàn)的前提條件就是該組資料必須服從正態(tài)分布;若是配對(duì)設(shè)計(jì),每對(duì)數(shù)據(jù)的差值必須服從正態(tài)分布;若是成組設(shè)計(jì),個(gè)體之間相互獨(dú)立,兩組資料均取自正態(tài)分布的總體,并滿足方差齊性。之所以需要這些前提條件,是因?yàn)楸仨氃谶@樣的前提下所計(jì)算出的t統(tǒng)計(jì)量才服從t分布,而t檢驗(yàn)正是以t分布作為其理論依據(jù)的檢驗(yàn)方法。
簡(jiǎn)單來說就是實(shí)用T檢驗(yàn)是有條件的,其中之一就是要符合方差齊次性,這點(diǎn)需要F檢驗(yàn)來驗(yàn)證。
1、問:自由度是什么?怎樣確定?
答:(定義)構(gòu)成樣本統(tǒng)計(jì)量的獨(dú)立的樣本觀測(cè)值的數(shù)目或自由變動(dòng)的樣本觀測(cè)值的數(shù)目。用df表示。
自由度的設(shè)定是出于這樣一個(gè)理由:在總體平均數(shù)未知時(shí),用樣本平均數(shù)去計(jì)算離差(常用小s)會(huì)受到一個(gè)限制——要計(jì)算標(biāo)準(zhǔn)差(小s)就必須先知道樣本平均數(shù),而樣本平均數(shù)和n都知道的情況下,數(shù)據(jù)的總和就是一個(gè)常數(shù)了。所以,“最后一個(gè)”樣本數(shù)據(jù)就不可以變了,因?yàn)樗亲?,總和就變了,而這是不允許的。至于有的自由度是n-2什么的,都是同樣道理。
在計(jì)算作為估計(jì)量的統(tǒng)計(jì)量時(shí),引進(jìn)一個(gè)統(tǒng)計(jì)量就會(huì)失去一個(gè)自由度。
通俗點(diǎn)說,一個(gè)班上有50個(gè)人,我們知道他們語(yǔ)文成績(jī)平均分為80,現(xiàn)在只需要知道49個(gè)人的成績(jī)就能推斷出剩下那個(gè)人的成績(jī)。你可以隨便報(bào)出49個(gè)人的成績(jī),但是最后一個(gè)人的你不能瞎說,因?yàn)槠骄忠呀?jīng)固定下來了,自由度少一個(gè)了。
簡(jiǎn)單點(diǎn)就好比你有一百塊,這是固定的,已知的,假設(shè)你打算買五件東西,那么前四件你可以隨便買你想買的東西,只要還有錢的話,比如說你可以吃KFC可以買筆,可以買衣服,這些花去的錢數(shù)目不等,當(dāng)你只剩2塊錢時(shí),或許你最多只能買一瓶可樂了,當(dāng)然也可以買一個(gè)肉松蛋卷,但無論怎么花,你都只有兩塊錢,而這在你花去98塊那時(shí)就已經(jīng)定下來了。
(這個(gè)例子舉的真不錯(cuò)!?。?
2、問:X方檢驗(yàn)中自由度問題
答:在正態(tài)分布檢驗(yàn)中【檢驗(yàn)數(shù)據(jù)是否是呈正態(tài)分布】,這里的M(三個(gè)統(tǒng)計(jì)量)為N(總數(shù))、平均數(shù)和標(biāo)準(zhǔn)差。
因?yàn)槲覀冊(cè)谧稣龖B(tài)檢驗(yàn)時(shí),要使用到平均數(shù)和標(biāo)準(zhǔn)差以確定該正態(tài)分布形態(tài),此外,要計(jì)算出各個(gè)區(qū)間的理論次數(shù),我們還需要使用到N。
所以在正態(tài)分布檢驗(yàn)中,自由度為K-3。(因?yàn)樗玫絅、μ、σ三個(gè)參數(shù),這一條比較特別,要記?。。?nbsp; 在總體分布的配合度檢驗(yàn)中,自由度為K-1。
在交叉表的獨(dú)立性檢驗(yàn)和同質(zhì)性檢驗(yàn)中,自由度為(r-1)×(c-1)?!玖新?lián)表檢驗(yàn):獨(dú)立性檢驗(yàn)】
3、問:t檢驗(yàn)和方差分析有何區(qū)別
答:t檢驗(yàn)適用于兩個(gè)變量均數(shù)間的差異檢驗(yàn),多于兩個(gè)變量間的均數(shù)比較要用方差分析。
用于比較均值的t檢驗(yàn)可以分成三類,第一類是針對(duì)單組設(shè)計(jì)定量資料的;第二類是針對(duì)配對(duì)設(shè)計(jì)定量資料的;第三類則是針對(duì)成組設(shè)計(jì)定量資料的。后兩種設(shè)計(jì)類型的區(qū)別在于事先是否將兩組研究對(duì)象按照某一個(gè)或幾個(gè)方面的特征相似配成對(duì)子。無論哪種類型的t檢驗(yàn),都必須在滿足特定的前提條件下應(yīng)用才是合理的。
若是單組設(shè)計(jì),必須給出一個(gè)標(biāo)準(zhǔn)值或總體均值,同時(shí),提供一組定量的觀測(cè)結(jié)果,應(yīng)用t檢驗(yàn)的前提條件就是該組資料必須服從正態(tài)分布;若是配對(duì)設(shè)計(jì),每對(duì)數(shù)據(jù)的差值必須服從正態(tài)分布;若是成組設(shè)計(jì),個(gè)體之間相互獨(dú)立,兩組資料均取自正態(tài)分布的總體,并滿足方差齊性。之所以需要這些前提條件,是因?yàn)楸仨氃谶@樣的前提下所計(jì)算出的t統(tǒng)計(jì)量才服從t分布,而t檢驗(yàn)正是以t分布作為其理論依據(jù)的檢驗(yàn)方法。
值得注意的是,方差分析與成組設(shè)計(jì)t檢驗(yàn)的前提條件是相同的,即正態(tài)性和方差齊性。
t檢驗(yàn)是目前醫(yī)學(xué)研究中使用頻率最高,醫(yī)學(xué)論文中最常見到的處理定量資料的假設(shè)檢驗(yàn)方法。t檢驗(yàn)得到如此廣泛的應(yīng)用,究其原因,不外乎以下幾點(diǎn):現(xiàn)有的醫(yī)學(xué)期刊多在統(tǒng)計(jì)學(xué)方面作出了要求,研究結(jié)論需要統(tǒng)計(jì)學(xué)支持;傳統(tǒng)的醫(yī)學(xué)統(tǒng)計(jì)教學(xué)都把t檢驗(yàn)作為假設(shè)檢驗(yàn)的入門方法進(jìn)行介紹,使之成為廣大醫(yī)學(xué)研究人員最熟悉的方法;t檢驗(yàn)方法簡(jiǎn)單,其結(jié)果便于解釋。簡(jiǎn)單、熟悉加上外界的要求,促成了t檢驗(yàn)的流行。但是,由于某些人對(duì)該方法理解得不全面,導(dǎo)致在應(yīng)用過程中出現(xiàn)不少問題,有些甚至是非常嚴(yán)重的錯(cuò)誤,直接影響到結(jié)論的可靠性。將這些問題歸類,可大致概括為以下兩種情況:不考慮t檢驗(yàn)的應(yīng)用前提,對(duì)兩組的比較一律用t檢驗(yàn);將各種實(shí)驗(yàn)設(shè)計(jì)類型一律視為多個(gè)單因素兩水平設(shè)計(jì),多次用t檢驗(yàn)進(jìn)行均值之間的兩兩比較。以上兩種情況,均不同程度地增加了得出錯(cuò)誤結(jié)論的風(fēng)險(xiǎn)。而且,在實(shí)驗(yàn)因素的個(gè)數(shù)大于等于2時(shí),無法研究實(shí)驗(yàn)因素之間的交互作用的大小。 4、問:統(tǒng)計(jì)學(xué)意義(P值) 答:結(jié)果的統(tǒng)計(jì)學(xué)意義是結(jié)果真實(shí)程度(能夠代表總體)的一種估計(jì)方法。專業(yè)上,P值為結(jié)果可信程度的一個(gè)遞減指標(biāo),P值越大,我們?cè)讲荒苷J(rèn)為樣本中變量的關(guān)聯(lián)是總體中各變量關(guān)聯(lián)的可靠指標(biāo)。P值是將觀察結(jié)果認(rèn)為有效即具有總體代表性的犯錯(cuò)概率。如P=0.05提示樣本中變量關(guān)聯(lián)有5%的可能是由于偶然性造成的。即假設(shè)總體中任意變量間均無關(guān)聯(lián),我們重復(fù)類似實(shí)驗(yàn),會(huì)發(fā)現(xiàn)約20個(gè)實(shí)驗(yàn)中有一個(gè)實(shí)驗(yàn),我們所研究的變量關(guān)聯(lián)將等于或強(qiáng)于我們的實(shí)驗(yàn)結(jié)果。(這并不是說如果變量間存在關(guān)聯(lián),我們可得到5%或95%次數(shù)的相同結(jié)果,當(dāng)總體中的變量存在關(guān)聯(lián),重復(fù)研究和發(fā)現(xiàn)關(guān)聯(lián)的可能性與設(shè)計(jì)的統(tǒng)計(jì)學(xué)效力有關(guān)。)在許多研究領(lǐng)域,0.05的P值通常被認(rèn)為是可接受錯(cuò)誤的邊界水平。 5、問:如何判定結(jié)果具有真實(shí)的顯著性 答:在最后結(jié)論中判斷什么樣的顯著性水平具有統(tǒng)計(jì)學(xué)意義,不可避免地帶有武斷性。換句話說,認(rèn)為結(jié)果無效而被拒絕接受的水平的選擇具有武斷性。實(shí)踐中,最后的決定通常依賴于數(shù)據(jù)集比較和分析過程中結(jié)果是先驗(yàn)性還是僅僅為均數(shù)之間的兩兩>比較,依賴于總體數(shù)據(jù)集里結(jié)論一致的支持性證據(jù)的數(shù)量,依賴于以往該研究領(lǐng)域的慣例。通常,許多的科學(xué)領(lǐng)域中產(chǎn)生P值的結(jié)果≤0.05被認(rèn)為是統(tǒng)計(jì)學(xué)意義的邊界線,但是這顯著性水平還包含了相當(dāng)高的犯錯(cuò)可能性。結(jié)果 0.05≥P>0.01被認(rèn)為是具有統(tǒng)計(jì)學(xué)意義,而0.01≥P≥0.001被認(rèn)為具有高度統(tǒng)計(jì)學(xué)意義。但要注意這種分類僅僅是研究基礎(chǔ)上非正規(guī)的判斷常規(guī)。6、問:所有的檢驗(yàn)統(tǒng)計(jì)都是正態(tài)分布的嗎?
答:并不完全如此,但大多數(shù)檢驗(yàn)都直接或間接與之有關(guān),可以從正態(tài)分布中推導(dǎo)出來,如t檢驗(yàn)、F檢驗(yàn)或卡方檢驗(yàn)。這些檢驗(yàn)一般都要求:所分析變量在總體中呈正態(tài)分布,即滿足所謂的正態(tài)假設(shè)。許多觀察變量的確是呈正態(tài)分布的,這也是正態(tài)分布是現(xiàn)實(shí)世界的基本特征的原因。當(dāng)人們用在正態(tài)分布基礎(chǔ)上建立的檢驗(yàn)分析非正態(tài)分布變量的數(shù)據(jù)時(shí)問題就產(chǎn)生了,(參閱非參數(shù)和方差分析的正態(tài)性檢驗(yàn))。 這種條件下有兩種方法:一是用替代的非參數(shù)檢驗(yàn)(即無分布性檢驗(yàn)),但這種方法不方便,因?yàn)閺乃峁┑慕Y(jié)論形式看,這種方法統(tǒng)計(jì)效率低下、不靈活。另一種方法是:當(dāng)確定樣本量足夠大的情況下,通常還是可以使用基于正態(tài)分布前提下的檢驗(yàn)。后一種方法是基于一個(gè)相當(dāng)重要的原則產(chǎn)生的,該原則對(duì)正態(tài)方程基礎(chǔ)上的總體檢驗(yàn)有極其重要的作用。即,隨著樣本量的增加,樣本分布形狀趨于正態(tài),即使所研究的變量分布并不呈正態(tài)。 7、問:假設(shè)檢驗(yàn)的內(nèi)涵及步驟 答:在假設(shè)檢驗(yàn)中,由于隨機(jī)性我們可能在決策上犯兩類錯(cuò)誤,一類是假設(shè)正確,但我們拒絕了假設(shè),這類錯(cuò)誤是“棄真”錯(cuò)誤,被稱為第一類錯(cuò)誤;一類是假設(shè)不正確,但我們沒拒絕假設(shè),這類錯(cuò)誤是“取偽”錯(cuò)誤,被稱為第二類錯(cuò)誤。一般來說,在樣本確定的情況下,任何決策無法同時(shí)避免兩類錯(cuò)誤的發(fā)生,即在避免第一類錯(cuò)誤發(fā)生機(jī)率的同時(shí),會(huì)增大第二類錯(cuò)誤發(fā)生的機(jī)率;或者在避免第二類錯(cuò)誤發(fā)生機(jī)率的同時(shí),會(huì)增大第一類錯(cuò)誤發(fā)生的機(jī)率。人們往往根據(jù)需要選擇對(duì)那類錯(cuò)誤進(jìn)行控制,以減少發(fā)生這類錯(cuò)誤的機(jī)率。大多數(shù)情況下,人們會(huì)控制第一類錯(cuò)誤發(fā)生的概率。 發(fā)生第一類錯(cuò)誤的概率被稱作顯著性水平,一般用α表示,在進(jìn)行假設(shè)檢驗(yàn)時(shí),是通過事先給定顯著性水平α的值而來控制第一類錯(cuò)誤發(fā)生的概率。在這個(gè)前提下,假設(shè)檢驗(yàn)按下列步驟進(jìn)行:
1)、確定假設(shè); 2)、進(jìn)行抽樣,得到一定的數(shù)據(jù); 3)、根據(jù)假設(shè)條件下,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,并根據(jù)抽樣得到的數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量在這次抽樣中的具體值; 4)、依據(jù)所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量的抽樣分布,和給定的顯著性水平,確定拒絕域及其臨界值; 5)、比較這次抽樣中檢驗(yàn)統(tǒng)計(jì)量的值與臨界值的大小,如果檢驗(yàn)統(tǒng)計(jì)量的值在拒絕域內(nèi),則拒絕假設(shè);
到這一步,假設(shè)檢驗(yàn)已經(jīng)基本完成,但是由于檢驗(yàn)是利用事先給定顯著性水平的方法來控制犯錯(cuò)概率的,所以對(duì)于兩個(gè)數(shù)據(jù)比較相近的假設(shè)檢驗(yàn),我們無法知道那一個(gè)假設(shè)更容易犯錯(cuò),即我們通過這種方法只能知道根據(jù)這次抽樣而犯第一類錯(cuò)誤的最大概率(即給定的顯著性水平),而無法知道具體在多大概率水平上犯錯(cuò)。計(jì)算 P值有效的解決了這個(gè)問題,P值其實(shí)就是按照抽樣分布計(jì)算的一個(gè)概率值,這個(gè)值是根據(jù)檢驗(yàn)統(tǒng)計(jì)量計(jì)算出來的。通過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設(shè),顯然這就代替了比較檢驗(yàn)統(tǒng)計(jì)量的值與臨界值的大小的方法。而且通過這種方法,我們還可以知道在p值小于α的情況下犯第一類錯(cuò)誤的實(shí)際概率是多少,p=0.03<α=0.05,那么拒絕假設(shè),這一決策可能犯錯(cuò)的概率是0.03。需要指出的是,如果P>α,那么假設(shè)不被拒絕,在這種情況下,第一類錯(cuò)誤并不會(huì)發(fā)生。 8、問:卡方檢驗(yàn)的結(jié)果,值是越大越好,還是越小越好? 答:與其它檢驗(yàn)一樣,所計(jì)算出的統(tǒng)計(jì)量越大,在分布中越接近分布的尾端,所對(duì)應(yīng)的概率值越小。
如果試驗(yàn)設(shè)計(jì)合理、數(shù)據(jù)正確,顯著或不顯著都是客觀反映。沒有什么好與不好。【注意到卡方分布中,其分位數(shù)對(duì)應(yīng)的概率值是分布圖形的右側(cè)面積】 9、問:配對(duì)樣本的T檢驗(yàn)和相關(guān)樣本檢驗(yàn)有何差別? 答:配對(duì)樣本有同源配對(duì)(如動(dòng)物實(shí)驗(yàn)中雙胞胎)、條件配對(duì)(如相同的環(huán)境)、自身配對(duì)(如醫(yī)學(xué)實(shí)驗(yàn)中個(gè)體的用藥前后)等。(好像沒有解釋清楚啊,同問這個(gè),到底什么區(qū)別呢?) 10、問:在比較兩組數(shù)據(jù)的率是否相同時(shí),二項(xiàng)分布和卡方檢驗(yàn)有什么不同?【列聯(lián)表檢驗(yàn)】 答:卡方分布主要用于多組多類的比較,是檢驗(yàn)研究對(duì)象總數(shù)與某一類別組的觀察頻數(shù)和期望頻數(shù)之間是否存在顯著差異,要求每格中頻數(shù)不小于5,如果小于5則合并相鄰組。二項(xiàng)分布則沒有這個(gè)要求。 如果分類中只有兩類還是采用二項(xiàng)檢驗(yàn)為好。如果是2*2表格可以用fisher精確檢驗(yàn),在小樣本下效果更好。 11、問:如何比較兩組數(shù)據(jù)之間的差異性 答:從四個(gè)方面來回答,
1).設(shè)計(jì)類型是完全隨機(jī)設(shè)計(jì)兩組數(shù)據(jù)比較,不知道數(shù)據(jù)是否是連續(xù)性變量? 2).比較方法:如果數(shù)據(jù)是連續(xù)性數(shù)據(jù),且兩組數(shù)據(jù)分別服從正態(tài)分布&方差齊(方差齊性檢驗(yàn)),則可以采用t檢驗(yàn),如果不服從以上條件可以采用秩和檢驗(yàn)【非參數(shù)檢驗(yàn)】。 3).想知道兩組數(shù)據(jù)是否有明顯差異?不知道這個(gè)明顯差異是什么意思?是問差別有無統(tǒng)計(jì)學(xué)意義(即差別的概率有多大)還是兩總體均數(shù)差值在哪個(gè)范圍波動(dòng)?如果是前者則可以用第2步可以得到P值,如果是后者,則是用均數(shù)差值的置信區(qū)間來完成的。當(dāng)然兩者的結(jié)果在SPSS中均可以得到。
12、問:回歸分析和相關(guān)分析的聯(lián)系和區(qū)別
答:回歸分析(Regression):Dependant variable is defined and can be forecasted by independent variable.
相關(guān)分析(Correlation):The relationship btw two variables. --- A dose not define or determine B. 回歸更有用自變量解釋因變量的意思,有一點(diǎn)點(diǎn)因果關(guān)系在里面,并且可以是線性或者非線形(多元回歸)關(guān)系; 相關(guān)更傾向于解釋兩兩之間的關(guān)系,但是一般都是指線形關(guān)系,特別是相關(guān)指數(shù),有時(shí)候圖像顯示特別強(qiáng)二次方圖像,但是相關(guān)指數(shù)仍然會(huì)很低,而這僅僅是因?yàn)閮烧唛g不是線形關(guān)系,并不意味著兩者之間沒有關(guān)系,因此在做相關(guān)指數(shù)的時(shí)候要特別注意怎么解釋數(shù)值,特別建議做出圖像觀察先。 不過,無論回歸還是相關(guān),在做因果關(guān)系的時(shí)候都應(yīng)該特別注意,并不是每一個(gè)顯著的回歸因子或者較高的相關(guān)指數(shù)都意味著因果關(guān)系,有可能這些因素都是受第三,第四因素制約,都是另外因素的因或果。
對(duì)于此二者的區(qū)別,我想通過下面這個(gè)比方很容易理解:
對(duì)于兩個(gè)人關(guān)系,相關(guān)關(guān)系只能知道他們是戀人關(guān)系,至于他們誰(shuí)是主導(dǎo)者,誰(shuí)說話算數(shù),誰(shuí)是跟隨者,一個(gè)打個(gè)噴嚏,另一個(gè)會(huì)有什么反應(yīng),相關(guān)就不能勝任,而回歸分析則能很好的解決這個(gè)問題 回歸未必有因果關(guān)係。回歸的主要有二:一是解釋,一是預(yù)測(cè)。在於利用已知的自變項(xiàng)預(yù)測(cè)未知的依變數(shù)。相關(guān)係數(shù),主要在了解兩個(gè)變數(shù)的共變情形。如果有因果關(guān)係,通常會(huì)進(jìn)行路徑分析(path analysis)或是線性結(jié)構(gòu)關(guān)係模式。
我覺得應(yīng)該這樣看,我們做回歸分析是在一定的理論和直覺下,通過自變量和因變量的數(shù)量關(guān)系探索是否有因果關(guān)系。樓上這位仁兄說“回歸未必有因果關(guān)系……如果有因果關(guān)系,通常進(jìn)行路徑分析或線性結(jié)構(gòu)關(guān)系模式”有點(diǎn)值得商榷吧,事實(shí)上,回歸分析可以看成是線性結(jié)構(gòu)關(guān)系模式的一個(gè)特例啊
我覺得說回歸是探索因果關(guān)系的并沒錯(cuò),因?yàn)閷?shí)際上最后我們并不是完全依據(jù)統(tǒng)計(jì)的結(jié)果來判斷因果性,只有在統(tǒng)計(jì)結(jié)果和理論及現(xiàn)實(shí)比較吻合的基礎(chǔ)上我們才肯定這種因果關(guān)系。任何統(tǒng)計(jì)方法只是一種工具,但是不能完全依賴于這種工具。即使是SEM,我們也不能說完全認(rèn)定其準(zhǔn)確性,因?yàn)榧词狗椒ㄊ呛玫?,但是變量的?fù)雜關(guān)系呈現(xiàn)的方式也是多種多樣的,可能統(tǒng)計(jì)只能告訴你一個(gè)方向上的最優(yōu)解,可未必是最符合實(shí)際的,更何況抽樣數(shù)據(jù)的質(zhì)量好壞也會(huì)使得結(jié)果不符合事實(shí),從而導(dǎo)致人們懷疑統(tǒng)計(jì)方法的準(zhǔn)確性。 統(tǒng)計(jì)只說明統(tǒng)計(jì)關(guān)聯(lián)。不證明因素關(guān)系?;貧w有因果關(guān)系,相關(guān)未必。回歸分析是處理兩個(gè)及兩個(gè)以上變量間線性依存關(guān)系的統(tǒng)計(jì)方法。此類問題很普遍,如人頭發(fā)中某種金屬元素的含量與血液中該元素的含量有關(guān)系,人的體表面積與身高、體重有關(guān)系;等等?;貧w分析就是用于說明這種依存變化的數(shù)學(xué)關(guān)系。任何事物的存在都不是孤立的,而是相互聯(lián)系、相互制約的。身高與體重、體溫與脈搏、年齡與血壓等都存在一定的聯(lián)系。說明客觀事物相互間關(guān)系的密切程度并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來,這個(gè)過程就是相關(guān)分析。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03