用樣本平均數(shù) 來估計總體的平均數(shù)?稱為點估計。點估計命中目標的機會是極低的,因為只憑著少數(shù)樣本觀察值得到的結(jié)果要和全體的平均數(shù)吻合幾乎是不可能的事,所以我們最除了點估計,還要用區(qū)間估計。根據(jù)中央極限定理和正態(tài)分布的特性我們知道 這個區(qū)間包含著全體平均數(shù)μ的機會有68%(為了簡潔表達,我們后文省去“約”), 的機會有95%,而 的機會有99.7%!真正可靠的估計勢必要用區(qū)間估計,只有這樣做我們才可以知道估計準確的程度,而這68%,95%,99.7%就稱做是置信水平。說得更確切一點,以95%置信水平為例,它的意思是:如果我們進行一百次獨立的抽樣估計,會有一百個樣本平均數(shù),也會有一百個區(qū)間估計,而這一百個區(qū)間估計里會有95個正確地包含著全體平均數(shù)μ。實際上我們不會做一百次抽樣,而是只做一次,所以說這一次抽樣而來的區(qū)間估計會包含著μ的機會是95%,置信水平越高,估計的區(qū)間也就越寬,這是高置信水平所必須付出的代價。
剛剛提到過一個好的估計必須既準又穩(wěn),我們用 來估計μ,如果做很多次的話,會有很多個 。中央極限定理已經(jīng)給我們保證,這些 的平均數(shù)會等于?,所以是「準」的估計已無問題,但是這些 是否都靠近在一起,稱得上是「穩(wěn)」呢?這就要看這些 的標準差了。我們已經(jīng)知道 的標準差是 ,其中 是全體的標準差,n是樣本數(shù),把樣本數(shù)加大會使得標準差變小,所以我們馬上領(lǐng)悟到樣本數(shù)越大,估計也就越穩(wěn)。其次, 是全體數(shù)據(jù)的標準差,我們并不知道它到底是多少,在區(qū)間估計里我們也需要用到它,因此為了要知道估計的準確程度,連全體資料的 也要一起估計才行。
至少有兩種方法來估計 ,一是用樣本觀察值的標準差,它的定義是:

在數(shù)學上可以證明用 來估計 是合乎「準」的要求的,但是這個方法必須做完抽樣,取得樣本數(shù)據(jù)后才能派上用場,有時很不方便事前的規(guī)劃和設(shè)計。二是用速簡方式,我們知道通常的數(shù)據(jù)若以平均數(shù)為中心,左右各三個標準差的距離大概可以網(wǎng)羅絕大部分的數(shù)據(jù)。所以我們可以用常識判斷,找出這組資料可能的最大數(shù)和最小數(shù)的差,再除以六,即是我們對 的速簡估計,因為從最小數(shù)到最大數(shù)之間大概有六個標準差的距離。
確定抽樣估計的理論、抽樣的多種組織形式。確定必要樣本容量的原因,必要樣本容量的影響因素。明確概率統(tǒng)計的各個知識點與業(yè)務(wù)環(huán)境、數(shù)據(jù)分析三者間的對應(yīng)關(guān)系。








暫無數(shù)據(jù)