99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學(xué)統(tǒng)計(jì)】11.物以類聚,人以群分!
【從零開始學(xué)統(tǒng)計(jì)】11.物以類聚,人以群分!
2014-07-04
收藏
在統(tǒng)計(jì)學(xué)的應(yīng)用中,有一些方法與回歸這類定量數(shù)據(jù)為主的分析不同,他們更傾向于定性的分析,比如判別,比如聚類……這類分析或許搞經(jīng)濟(jì)的,搞金融的不太會(huì)去使用,但在醫(yī)藥,咨詢服務(wù)類公司則會(huì)經(jīng)常(或相比經(jīng)濟(jì)金融界較多)使用到。今天,就來介紹一下判別分析和聚類分析。
       把他們放在一起討論,主要是因?yàn)樗麄兌加幸粋€(gè)“類”的概念,比如咱先看看判別分析:
       判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計(jì)分析方法其基本原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),用研究對(duì)象的大量資料確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類。當(dāng)?shù)玫揭粋€(gè)新的樣品數(shù)據(jù),要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。
       判別分析的類別很多,常用的有:適用于定性指標(biāo)或計(jì)數(shù)資料的有最大似然法、訓(xùn)練迭代法;適用于定量指標(biāo)或計(jì)量資料的有:Fisher二類判別、Bayers多類判別以及逐步判別。

那聚類分析呢?
       聚類分析又稱群分析,是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來進(jìn)行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的。
       聚類分析的方法常用的有:系統(tǒng)聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。 (如果百度過聚類分析,又點(diǎn)開了維基百科或者百度百科,可以發(fā)現(xiàn)百科里對(duì)聚類分析的算法介紹比樓主多很多,也復(fù)雜很多,還有各種算法間的比較,樓主當(dāng)初也愣住了,但是看了又看,由于應(yīng)用的領(lǐng)域不同,所以劃分確實(shí)很多,但如果不是做深入數(shù)據(jù)挖掘的話,上述的幾種方法已經(jīng)夠用了,當(dāng)然你要是需要用到其他復(fù)雜的算法,那樓主的帖子估計(jì)也不適合你看,畢竟寫它的目的僅僅為了普及知識(shí)而已……)

Q1:什么是類別?
A:類別指具有相同屬性或者特征指標(biāo)的個(gè)體(有的人稱之為樣品)的集合。用來標(biāo)明相同屬性、相同的特征指標(biāo),無論在判別分析還是在聚類分析中,我們都喜歡用“距離”,同一類別的個(gè)體之間距離小,不同總體的樣本之間距離大。

Q2:距離是什么?有哪些距離呢?
A:距離是一個(gè)原則性的定義,滿足對(duì)稱性、非負(fù)性。距離的分類主要有絕對(duì)距離、馬氏距離、歐幾里得距離(歐氏距離)。
  • 絕對(duì)距離:平面直角坐標(biāo)系中兩點(diǎn)的橫坐標(biāo)的差的絕對(duì)值與縱坐標(biāo)的差的絕對(duì)值的和叫做這兩點(diǎn)的絕對(duì)距離(引自百度百科),通俗點(diǎn)的話我們常說的這棟樓高100米,這就是一個(gè)絕對(duì)距離,它的前提是需要一個(gè)水平點(diǎn)。
  • 馬氏距離:用來表示數(shù)據(jù)的協(xié)方差距離,用來計(jì)算兩個(gè)未知樣本集的相似度設(shè)有兩個(gè)個(gè)體(點(diǎn))X與Y(假定為一維數(shù)據(jù),即在數(shù)軸上)是來自均數(shù)為,協(xié)方差陣為的總體(類別)A的兩個(gè)個(gè)體(點(diǎn)),則個(gè)體X與Y的馬氏距離為1.jpg ,類似地可以定義個(gè)體X與總體(類別)A的距離為2.jpg
  • 歐幾里德距離(歐氏距離):是一個(gè)通常采用的距離定義,指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長度(即該點(diǎn)到原點(diǎn)的距離)。二維平面上兩點(diǎn)a(x1,y1)與b(x2,y2)間的歐氏距離: 3.jpg 

       在判別和聚類分析中,馬氏距離和歐氏距離運(yùn)用較多,因?yàn)?/span>歐氏距離計(jì)算相對(duì)簡單,而馬氏距離也有很多優(yōu)點(diǎn):它不受量綱的影響,兩點(diǎn)之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān);由標(biāo)準(zhǔn)化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)計(jì)算出的二點(diǎn)之間的馬氏距離相同;馬氏距離還可以排除變量之間的相關(guān)性的干擾,但它的缺點(diǎn)是夸大了變化微小的變量的作用。


判別分析與聚類分析的區(qū)別:

聚類分析

判別分析

基本原理

將個(gè)體(樣品)或者對(duì)象(變量)按相似程度(距離遠(yuǎn)近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強(qiáng)。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。

從已知的各種分類情況中總結(jié)規(guī)律(訓(xùn)練出判別函數(shù)),當(dāng)新樣品進(jìn)入時(shí),判斷其與判別函數(shù)之間的相似程度(概率最大,距離最近,離差最小等判別準(zhǔn)則)  

假設(shè)條件

對(duì)變量的多元正態(tài)性,方差齊性等要求較高

分組類型在兩組以上,解釋變量必須是可測的;每個(gè)解釋變量不能是其它解釋變量的線性組合;各解釋變量之間服從多元正態(tài)分布,且各組解釋變量的協(xié)方差矩陣相等

應(yīng)用領(lǐng)域

細(xì)分市場,消費(fèi)行為劃分,設(shè)計(jì)抽樣方案等

對(duì)客戶進(jìn)行信用預(yù)測,尋找潛在客戶,臨床上用于鑒別診斷



判別分析的步驟:
1、研究問題(選擇對(duì)象,評(píng)估一個(gè)多元問題各組的差異,將觀測個(gè)體歸類,確定組與組之間的判別函數(shù))
2、設(shè)計(jì)要點(diǎn)(選擇解釋變量,考慮樣本量,簡歷分析樣本的保留樣本)

3、假定(解釋變量的正態(tài)性、線性關(guān)系、解釋變量間不存在多重共線性、協(xié)方差陣相等)
4、估計(jì)判別函數(shù)(聯(lián)立估計(jì)或者逐步估計(jì),判別函數(shù)的顯著性)
5、判別函數(shù)的解釋(需要幾個(gè)判別函數(shù))
6、評(píng)價(jià)判別函數(shù)(權(quán)重、載荷、偏F值)

判別分析的誤用(假設(shè)一份分析報(bào)告點(diǎn)評(píng)下錯(cuò)誤):
網(wǎng)友的想法:分別視4月,5月,6月三個(gè)月的離網(wǎng)用戶數(shù)據(jù)分別為三組(GROUP),每個(gè)用戶的指標(biāo)包含號(hào)碼、品牌 、區(qū)域 、月消費(fèi)金額、計(jì)費(fèi)時(shí)長、gprs流量、彩信量、短信量、數(shù)據(jù)業(yè)務(wù)取消種類、賬戶余額、親情套餐捆綁、營銷捆綁剩余月份 。希望通過這些指標(biāo)分析出離網(wǎng)用戶的特征,并找到閾值。
在他的分析報(bào)告中分組變量的選?。核姆纸M變量分為了三組,希望以月份來判別。
這里就有了第一點(diǎn)錯(cuò)誤。先回憶下判別分析,假如有2個(gè)人,已知一個(gè)中國人,一個(gè)日本人,判別分析就是據(jù)此對(duì)再來一個(gè)人的歸屬的推斷。網(wǎng)友希望分析出離網(wǎng)用戶卻誤操作為月。
第一個(gè)問題理清后,接著出現(xiàn)了第二個(gè)問題,對(duì)他的分析報(bào)告認(rèn)真檢索發(fā)現(xiàn)他的數(shù)據(jù)全都是離網(wǎng)用戶數(shù)據(jù),不可能進(jìn)行判別。

注:在做判別分析時(shí)fisher和貝葉斯函數(shù)都是常用的方法,但是fisher自身并不完美,所以一般做分析的時(shí)候也勾選上貝葉斯函數(shù)。除此之外,最后判別函數(shù)的書寫,一定要去分Z和非Z數(shù)據(jù)。

聚類方法實(shí)例:
聚類的方法有很多,統(tǒng)計(jì)軟件也自帶很多聚類方法,畫譜系圖也很容易,但是考試的時(shí)候沒有電腦,往往最容易考的就是讓你手工計(jì)算繪圖的系統(tǒng)聚類法(最長或最短距離進(jìn)行聚類的一種),這里咱們就用一個(gè)實(shí)例來演示一下,既能闡明步驟,又能加深理解:

設(shè)有12個(gè)個(gè)體,各測了3個(gè)指標(biāo)


編號(hào)



指標(biāo)



X1



X2



X3



1



5



7



10



2



7



1



5



3



3



2



14



4



6



5



2



5



6



6



9



6



7



7



7



7



8



1



4



8



20



7



9



9



19



8



12



10



7



4



4



11



4



5



13



12



6



5



7



1、計(jì)算各類(個(gè)體間)的距離
聚類1.jpg 
a2a7距離(2)最近,將其合并,并命名為G13。重新計(jì)算其他10類與G13之間的距離,它們與G13間的距離按最小距離法定義,因此

D1,13=min{D1,2,D1,7}=min{13,15}=13

D3,13=min{D3,2,D3,7}=min{14,16}=14

聚類2.jpg

2014-6-2 18:04:07 上傳
下載附件 (33 KB)

……以此類推,最終得到下表:

聚類3.jpg

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }