
使用SAS進行簡單的聚類分析講解
聚類分析的目的是把分類對象按一定的規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征確定的,對類的數(shù)目和類的結(jié)構不必作任何的假定。在同一類里的這些對象在某種意義上傾向于彼此相似,而在不同類里的對象傾向于彼此不相似。
聚類分析根據(jù)分類對象不同分為Q型聚類分析和R型聚類分析。Q型聚類是指對樣品進行聚類,R型聚類分析是指對變量進行聚類。
聚類分析根據(jù)分類對象不同分為Q型聚類分析和R型聚類分析。Q型聚類是指對樣品進行聚類,R型聚類分析是指對變量進行聚類。
SAS中用于判別分析的過程主要有以下四個:
PROC CLUSTER 譜系聚類(Q型聚類分析)
PROC FASTCLUS K均值快速聚類,適用于大樣本(Q型聚類分析)
PROC MODECLUS 非參數(shù)聚類(Q型聚類分析)
PROC VARCLUS 變量聚類(R型聚類分析)
1. 用PROC CLUSTER進行樣品聚類分析(Q型聚類分析)
[例1]
試根據(jù)1997年信息基礎設施的發(fā)展情況,對世界20個國家和地區(qū)進行聚類分析。描述信息基礎設施的變量主要有六個:
Cal-每千人擁有電話線數(shù);
Cellphone-每千戶居民移動電話數(shù);
Fee-高峰時期每三分鐘國際電話成本;
Computer-每千人擁有的計算機數(shù);
Mips-每千人中計算機功率(每秒百萬指令);
Net-每千人互聯(lián)網(wǎng)絡戶主數(shù)。
data cluster1;
infile datalines;
input Country $ Cal Cellphone Fee Computer Mips Net;
datalines;
美國 631.6 161.9 0.36 403 26073 35.34
日本 498.4 143.2 3.57 176 10223 6.26
德國 557.6 70.6 2.18 199 11571 9.48
瑞典 684.1 281.8 1.4 286 16660 29.39
瑞士 644 93.5 1.98 234 13621 22.68
丹麥 620.3 248.6 2.56 296 17210 21.84
新加坡 498.4 147.5 2.5 284 13578 13.49
中國臺灣 469.4 56.1 3.68 119 6911 1.72
韓國 434.5 73 3.36 99 5795 1.66
巴西 81.9 16.3 3.02 19 876 0.52
智利 138.6 8.2 1.4 31 1411 1.28
墨西哥 92.2 9.8 2.61 31 1751 0.35
俄羅斯 174.9 5 5.12 24 1101 0.48
波蘭 169 6.5 3.68 40 1796 1.45
匈牙利 262.2 49.4 2.66 68 3067 3.09
馬來西亞 195.5 88.4 4.19 53 2734 1.25
泰國 78.6 27.8 4.95 22 1662 0.11
印度 13.6 0.3 6.28 2 101 0.01
法國 559.1 42.9 1.27 201 11702 4.76
英國 521.1 122.5 0.98 248 14461 11.91
;
run;
PROC CLUSTER DATA=cluster1 STANDARD METHOD=CENTROID CCC PSEUDO UT=TREE;
PROC TREE DATA=TREE HORIZONTAL SPACES=1;
RUN;
[說明]
METHOD=的選項可以為:
AVERAGE(平均法)
CENTROID(重心法)
COMPLETE(最長距離法)
DENSITY(非參數(shù)概率密度估計法)
EML(最大似然法)
FLEXIBLE(flexible-beta法)
MCQUITTY(Mcquitty的相似分析法)
MEDIAN(中位數(shù)法)
SINGLE(最短距離法)
TWOSTAGE(兩階段密度法)
WARD(Ward最小方差法)
STANDARD 對變量實施標準化。
CCC、PSEUDO 為了計算一些統(tǒng)計量用以判別全部樣品究竟聚成幾類較為合適。CCC要求打印聚類判別據(jù)的立方及在一致無效假設下近似期望值R2,PSEUDO要求打印偽F(標志PSF)和t2(標志PST2)統(tǒng)計量。當分類數(shù)目不同時,它們就有不同的取值,CCC和PSF出現(xiàn)峰值所對應的分類數(shù)較合適、PST2出現(xiàn)峰值的前一行所對應的分類數(shù)較合適。
OUT=TREE 產(chǎn)生名為TREE的輸出數(shù)據(jù)集,它可被TREE過程用來輸出聚類結(jié)果的樹狀圖。HORIZONTAL要求將樹狀圖水平放置,SPACES=1要求各樣品之間的間隔為1。
[結(jié)果及其解釋]
如果聚為3類,其聚類結(jié)果為:一類是信息基礎設施最為發(fā)達的美國,一類是一些發(fā)達國家,其他的國家和地區(qū)聚為另外一類。
2. 用PROC FASTCLUS進行大樣本的樣品聚類分析(Q型聚類分析)
處理大樣本時一般采用非分層聚類法(快速聚類法)。聚類的個數(shù)k可以根據(jù)需要事先指定。與分層聚類方法相比,非分層聚類方法不必確定距離矩陣,不必存儲基本數(shù)據(jù),因此適用于處理很大的數(shù)據(jù)集。
下面仍使用[例1]的數(shù)據(jù),對PROC FASTCLUS加以說明:
PROC FASTCLUS DATA=cluster1 UT=result MAXC=3 CLUSTER=c;
RUN;
[說明]
MAXC=3 要求總共聚為3類
OUT=result 結(jié)果輸出到數(shù)據(jù)集result
CLUSTER=c 分類標志的變量名c,其取值為1,2,3
[結(jié)果及其解釋]
聚類結(jié)果為:一類是信息基礎設施最為發(fā)達的美國,一類是一些發(fā)達國家,其他的國家和地區(qū)聚為另外一類。
3. 用 PROC VARCLUS 進行變量聚類分析(R型聚類分析)
[例 2] 對1996年全國30個省市自治區(qū)經(jīng)濟發(fā)展基本情況的八項指標作變量聚類分析:
X1:GDP
X2:居民消費水平
X3:固定資產(chǎn)投資
X4:職工平均工資
X5:貨物周轉(zhuǎn)量
X6:居民消費價格指數(shù)
X7:商品零售價格指數(shù)
X8:工業(yè)總產(chǎn)值
data cluster2;
infile datalines;
input Province $ X1-X8;
datalines;
北京 1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43
天津 920.11 2720 345.46 6501 342.8 115.2 110.6 582.51
河北 2849.52 1258 704.87 4839 2033.3 115.2 115.8 1234.85
山西 1092.48 1250 290.9 4721 717.3 116.9 115.6 697.25
內(nèi)蒙 832.88 1387 250.23 4134 781.7 117.5 116.8 419.39
遼寧 2793.37 2397 387.99 4911 1371.1 116.1 114 1840.55
吉林 1129.2 1872 320.45 4430 497.4 115.2 114.2 762.47
黑龍江 2014.53 2334 435.73 4145 824.8 116.1 114.3 1240.37
上海 2462.57 5343 996.48 9279 207.1 118.7 113 1642.95
江蘇 5155.25 1926 1434.95 5943 1025.5 115.8 114.3 2026.64
浙江 3524.79 2249 1006.39 6619 754.4 116.6 113.5 916.59
安徽 2003.58 1254 474 4609 908.3 114.8 112.7 824.14
福建 2160.52 2320 553.97 5857 609.3 115.2 114.4 433.67
江西 1205.11 1182 282.84 4211 411.7 116.9 115.9 571.84
山東 5002.34 1527 1229.55 5145 1196.6 117.6 114.2 2207.69
河南 3002.74 1034 670.35 4344 1574.4 116.5 114.9 1367.92
湖北 2391.42 1527 571.86 4685 849 120 116.6 1220.72
湖南 2195.7 1408 422.61 4797 1011.8 119 115.5 843.83
廣東 5381.72 2699 1639.83 8250 656.5 114 111.6 1396.35
廣西 1606.15 1314 382.59 5105 556 118.4 116.4 554.97
海南 364.17 1814 198.35 5340 232.1 113.5 111.3 64.33
四川 3534 1261 822.54 4645 902.3 118.5 117 1431.81
貴州 630.07 942 150.84 4475 301.1 121.4 117.2 324.72
云南 1206.68 1261 334 5149 310.4 121.3 118.1 716.65
西藏 55.98 1110 17.87 7382 4.2 117.3 114.9 5.57
陜西 1000.03 1208 300.27 4396 500.9 119 117 600.98
甘肅 553.35 1007 114.81 5493 507 119.8 116.5 468.79
青海 165.31 1445 47.76 5753 61.6 118 116.3 105.8
寧夏 169.75 1355 61.98 5079 121.8 117.1 115.3 114.4
新疆 834.57 1469 376.95 5348 339 119.7 116.7 428.76
;
run;
PROC VARCLUS DATA=cluster2 CENTROID MAXC=3;
VAR x1-x8;
RUN;
[說明]
CENTROID 聚類方法為重心法,默認聚類方法為主成分法
MAXC=3 要求總共聚為3類
[結(jié)果及其解釋]
聚類結(jié)果為:第一類變量主要反映了生產(chǎn)狀況;第二類變量主要反映了消費狀況,第三類變量主要反映了價格狀況。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構數(shù)據(jù)價值的核心操盤手 表格結(jié)構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10