
使用SAS進(jìn)行簡單的聚類分析講解
聚類分析的目的是把分類對(duì)象按一定的規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征確定的,對(duì)類的數(shù)目和類的結(jié)構(gòu)不必作任何的假定。在同一類里的這些對(duì)象在某種意義上傾向于彼此相似,而在不同類里的對(duì)象傾向于彼此不相似。
聚類分析根據(jù)分類對(duì)象不同分為Q型聚類分析和R型聚類分析。Q型聚類是指對(duì)樣品進(jìn)行聚類,R型聚類分析是指對(duì)變量進(jìn)行聚類。
聚類分析根據(jù)分類對(duì)象不同分為Q型聚類分析和R型聚類分析。Q型聚類是指對(duì)樣品進(jìn)行聚類,R型聚類分析是指對(duì)變量進(jìn)行聚類。
SAS中用于判別分析的過程主要有以下四個(gè):
PROC CLUSTER 譜系聚類(Q型聚類分析)
PROC FASTCLUS K均值快速聚類,適用于大樣本(Q型聚類分析)
PROC MODECLUS 非參數(shù)聚類(Q型聚類分析)
PROC VARCLUS 變量聚類(R型聚類分析)
1. 用PROC CLUSTER進(jìn)行樣品聚類分析(Q型聚類分析)
[例1]
試根據(jù)1997年信息基礎(chǔ)設(shè)施的發(fā)展情況,對(duì)世界20個(gè)國家和地區(qū)進(jìn)行聚類分析。描述信息基礎(chǔ)設(shè)施的變量主要有六個(gè):
Cal-每千人擁有電話線數(shù);
Cellphone-每千戶居民移動(dòng)電話數(shù);
Fee-高峰時(shí)期每三分鐘國際電話成本;
Computer-每千人擁有的計(jì)算機(jī)數(shù);
Mips-每千人中計(jì)算機(jī)功率(每秒百萬指令);
Net-每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。
data cluster1;
infile datalines;
input Country $ Cal Cellphone Fee Computer Mips Net;
datalines;
美國 631.6 161.9 0.36 403 26073 35.34
日本 498.4 143.2 3.57 176 10223 6.26
德國 557.6 70.6 2.18 199 11571 9.48
瑞典 684.1 281.8 1.4 286 16660 29.39
瑞士 644 93.5 1.98 234 13621 22.68
丹麥 620.3 248.6 2.56 296 17210 21.84
新加坡 498.4 147.5 2.5 284 13578 13.49
中國臺(tái)灣 469.4 56.1 3.68 119 6911 1.72
韓國 434.5 73 3.36 99 5795 1.66
巴西 81.9 16.3 3.02 19 876 0.52
智利 138.6 8.2 1.4 31 1411 1.28
墨西哥 92.2 9.8 2.61 31 1751 0.35
俄羅斯 174.9 5 5.12 24 1101 0.48
波蘭 169 6.5 3.68 40 1796 1.45
匈牙利 262.2 49.4 2.66 68 3067 3.09
馬來西亞 195.5 88.4 4.19 53 2734 1.25
泰國 78.6 27.8 4.95 22 1662 0.11
印度 13.6 0.3 6.28 2 101 0.01
法國 559.1 42.9 1.27 201 11702 4.76
英國 521.1 122.5 0.98 248 14461 11.91
;
run;
PROC CLUSTER DATA=cluster1 STANDARD METHOD=CENTROID CCC PSEUDO UT=TREE;
PROC TREE DATA=TREE HORIZONTAL SPACES=1;
RUN;
[說明]
METHOD=的選項(xiàng)可以為:
AVERAGE(平均法)
CENTROID(重心法)
COMPLETE(最長距離法)
DENSITY(非參數(shù)概率密度估計(jì)法)
EML(最大似然法)
FLEXIBLE(flexible-beta法)
MCQUITTY(Mcquitty的相似分析法)
MEDIAN(中位數(shù)法)
SINGLE(最短距離法)
TWOSTAGE(兩階段密度法)
WARD(Ward最小方差法)
STANDARD 對(duì)變量實(shí)施標(biāo)準(zhǔn)化。
CCC、PSEUDO 為了計(jì)算一些統(tǒng)計(jì)量用以判別全部樣品究竟聚成幾類較為合適。CCC要求打印聚類判別據(jù)的立方及在一致無效假設(shè)下近似期望值R2,PSEUDO要求打印偽F(標(biāo)志PSF)和t2(標(biāo)志PST2)統(tǒng)計(jì)量。當(dāng)分類數(shù)目不同時(shí),它們就有不同的取值,CCC和PSF出現(xiàn)峰值所對(duì)應(yīng)的分類數(shù)較合適、PST2出現(xiàn)峰值的前一行所對(duì)應(yīng)的分類數(shù)較合適。
OUT=TREE 產(chǎn)生名為TREE的輸出數(shù)據(jù)集,它可被TREE過程用來輸出聚類結(jié)果的樹狀圖。HORIZONTAL要求將樹狀圖水平放置,SPACES=1要求各樣品之間的間隔為1。
[結(jié)果及其解釋]
如果聚為3類,其聚類結(jié)果為:一類是信息基礎(chǔ)設(shè)施最為發(fā)達(dá)的美國,一類是一些發(fā)達(dá)國家,其他的國家和地區(qū)聚為另外一類。
2. 用PROC FASTCLUS進(jìn)行大樣本的樣品聚類分析(Q型聚類分析)
處理大樣本時(shí)一般采用非分層聚類法(快速聚類法)。聚類的個(gè)數(shù)k可以根據(jù)需要事先指定。與分層聚類方法相比,非分層聚類方法不必確定距離矩陣,不必存儲(chǔ)基本數(shù)據(jù),因此適用于處理很大的數(shù)據(jù)集。
下面仍使用[例1]的數(shù)據(jù),對(duì)PROC FASTCLUS加以說明:
PROC FASTCLUS DATA=cluster1 UT=result MAXC=3 CLUSTER=c;
RUN;
[說明]
MAXC=3 要求總共聚為3類
OUT=result 結(jié)果輸出到數(shù)據(jù)集result
CLUSTER=c 分類標(biāo)志的變量名c,其取值為1,2,3
[結(jié)果及其解釋]
聚類結(jié)果為:一類是信息基礎(chǔ)設(shè)施最為發(fā)達(dá)的美國,一類是一些發(fā)達(dá)國家,其他的國家和地區(qū)聚為另外一類。
3. 用 PROC VARCLUS 進(jìn)行變量聚類分析(R型聚類分析)
[例 2] 對(duì)1996年全國30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)作變量聚類分析:
X1:GDP
X2:居民消費(fèi)水平
X3:固定資產(chǎn)投資
X4:職工平均工資
X5:貨物周轉(zhuǎn)量
X6:居民消費(fèi)價(jià)格指數(shù)
X7:商品零售價(jià)格指數(shù)
X8:工業(yè)總產(chǎn)值
data cluster2;
infile datalines;
input Province $ X1-X8;
datalines;
北京 1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43
天津 920.11 2720 345.46 6501 342.8 115.2 110.6 582.51
河北 2849.52 1258 704.87 4839 2033.3 115.2 115.8 1234.85
山西 1092.48 1250 290.9 4721 717.3 116.9 115.6 697.25
內(nèi)蒙 832.88 1387 250.23 4134 781.7 117.5 116.8 419.39
遼寧 2793.37 2397 387.99 4911 1371.1 116.1 114 1840.55
吉林 1129.2 1872 320.45 4430 497.4 115.2 114.2 762.47
黑龍江 2014.53 2334 435.73 4145 824.8 116.1 114.3 1240.37
上海 2462.57 5343 996.48 9279 207.1 118.7 113 1642.95
江蘇 5155.25 1926 1434.95 5943 1025.5 115.8 114.3 2026.64
浙江 3524.79 2249 1006.39 6619 754.4 116.6 113.5 916.59
安徽 2003.58 1254 474 4609 908.3 114.8 112.7 824.14
福建 2160.52 2320 553.97 5857 609.3 115.2 114.4 433.67
江西 1205.11 1182 282.84 4211 411.7 116.9 115.9 571.84
山東 5002.34 1527 1229.55 5145 1196.6 117.6 114.2 2207.69
河南 3002.74 1034 670.35 4344 1574.4 116.5 114.9 1367.92
湖北 2391.42 1527 571.86 4685 849 120 116.6 1220.72
湖南 2195.7 1408 422.61 4797 1011.8 119 115.5 843.83
廣東 5381.72 2699 1639.83 8250 656.5 114 111.6 1396.35
廣西 1606.15 1314 382.59 5105 556 118.4 116.4 554.97
海南 364.17 1814 198.35 5340 232.1 113.5 111.3 64.33
四川 3534 1261 822.54 4645 902.3 118.5 117 1431.81
貴州 630.07 942 150.84 4475 301.1 121.4 117.2 324.72
云南 1206.68 1261 334 5149 310.4 121.3 118.1 716.65
西藏 55.98 1110 17.87 7382 4.2 117.3 114.9 5.57
陜西 1000.03 1208 300.27 4396 500.9 119 117 600.98
甘肅 553.35 1007 114.81 5493 507 119.8 116.5 468.79
青海 165.31 1445 47.76 5753 61.6 118 116.3 105.8
寧夏 169.75 1355 61.98 5079 121.8 117.1 115.3 114.4
新疆 834.57 1469 376.95 5348 339 119.7 116.7 428.76
;
run;
PROC VARCLUS DATA=cluster2 CENTROID MAXC=3;
VAR x1-x8;
RUN;
[說明]
CENTROID 聚類方法為重心法,默認(rèn)聚類方法為主成分法
MAXC=3 要求總共聚為3類
[結(jié)果及其解釋]
聚類結(jié)果為:第一類變量主要反映了生產(chǎn)狀況;第二類變量主要反映了消費(fèi)狀況,第三類變量主要反映了價(jià)格狀況。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03