所謂的Bootstrapping法就是利用有限的樣本資料經(jīng)由多次重復抽樣,重新建立起足以代表母體樣本分布之新樣本。
統(tǒng)計學中,bootstrapping可以指依賴于重置隨機抽樣的一切試驗。bootstrapping可以用于計算樣本估計的準確性。對于一個采樣,我們只能計算出某個統(tǒng)計量(例如均值)的一個取值,無法知道均值統(tǒng)計量的分布情況。但是通過自助法(自舉法)我們可以模擬出均值統(tǒng)計量的近似分布。有了分布很多事情就可以做了(比如說有你推出的結(jié)果來進而推測實際總體的情況)。
bootstrapping方法的實現(xiàn)很簡單,假設(shè)抽取的樣本大小為n:
在原樣本中有放回的抽樣,抽取n次。每抽一次形成一個新的樣本,重復操作,形成很多新樣本,通過這些樣本就可以計算出樣本的一個分布。新樣本的數(shù)量通常是1000-10000。如果計算成本很小,或者對精度要求比較高,就增加新樣本的數(shù)量。
Bootstrap是現(xiàn)代非參數(shù)統(tǒng)計的重要方法,目的是用來判斷統(tǒng)計量的精確程度。非正式地說,Bootstrap不是用來估計參數(shù)的,也就是說效果不會變好,而是用來判斷原有的估計多大程度上是有效的。
Boostrap跟傳統(tǒng)的區(qū)間估計是有些相似的。比如,無論總體的分布是什么樣,我們知道樣本均值是漸進正態(tài)分布的,假設(shè)總體均值存在。利用漸進分布我們就可以構(gòu)造樣本均值的置信區(qū)間。
但是問題是,要多少樣本量才收斂到漸進分布呢?如果總體不是常見分布,我們很難判斷近似程度。并且,有的時候漸進分布很難寫出來。
Boostrap就提供了一種靈活的,絕大多情況都有效的方法,去判斷統(tǒng)計量的是否合適。我們可以把樣本當成一種“偽總體“,那么,依造經(jīng)驗分布而產(chǎn)生新的抽樣分布上的統(tǒng)計量,應該與依造總體分布而產(chǎn)生的經(jīng)驗分布上的統(tǒng)計量具有相似的特征。
優(yōu)點:簡單易于操作。
缺點:bootstrapping的運用基于很多統(tǒng)計學假設(shè),因此假設(shè)的成立與否會影響采樣的準確性。








暫無數(shù)據(jù)