(3) 抽樣
抽樣也是一種數(shù)據(jù)規(guī)約技術(shù), 它用比原始數(shù)據(jù)小得多的隨機(jī)樣本(子集) 表示原始數(shù)據(jù)集。 假定原始數(shù)據(jù)集D包含N個(gè)元組, 可以采用抽樣方法
對(duì)D進(jìn)行抽樣。 下面介紹常用的抽樣方法。 在R中, 抽樣可以通過(guò)函數(shù)
sample(N, s, replace=T/F) 實(shí)現(xiàn), 實(shí)際中相當(dāng)于先從1~N, 共N個(gè)自然數(shù)
中抽取s個(gè), 然后將抽到的s個(gè)自然數(shù)作為數(shù)據(jù)框中觀測(cè)的行位置進(jìn)行目標(biāo)元
組的調(diào)出, 抽樣所得新數(shù)據(jù)集newD=D[sample(N, s,
replace=T/F) , ] 。
s個(gè)樣本有放回簡(jiǎn)單隨機(jī)抽樣: 從D的N個(gè)元組中抽取s個(gè)樣本(s<N) ,
其中D中任意元組被抽取的概率均為1/N, 即所有元組的抽取是等可能的, R
中對(duì)應(yīng)抽樣函數(shù)為sample(N, s, replace=T) 。
s個(gè)樣本無(wú)放回簡(jiǎn)單隨機(jī)抽樣: 該方法類似于無(wú)放回簡(jiǎn)單隨機(jī)抽樣, 不
同在于每次一個(gè)元組從D中抽取后, 記錄它, 然后放回原處, 其對(duì)應(yīng)抽樣函
數(shù)為sample(N, s, replace=F) 。
聚類抽樣: 如果D中的元組分組放入M個(gè)互不相交的“簇”, 則可以得到s
個(gè)簇的簡(jiǎn)單隨機(jī)抽樣, 其中s<M。 例如, 數(shù)據(jù)庫(kù)中元組通常一次檢索一頁(yè),
這樣每頁(yè)就可以視為一個(gè)簇。
分層抽樣: 如果D劃分成互不相交的部分, 稱作層, 則通過(guò)對(duì)每一層的
簡(jiǎn)單隨機(jī)抽樣就可以得到D的分層樣本。 例如, 可以得到關(guān)于顧客數(shù)據(jù)的一
個(gè)分層樣本, 按照顧客的每個(gè)年齡組創(chuàng)建分層。








暫無(wú)數(shù)據(jù)