
用SAS進行數(shù)據(jù)分析:聚類分析_數(shù)據(jù)分析師培訓
用CLUSTER過程和TREE過程進行譜系聚類
一、CLUSTER過程用法
CLUSTER過程的一般格式為:
PROC CLUSTER DATA=輸入數(shù)據(jù)集
METHOD=聚類方法 選項:
VAR 聚類用變量:
COPY 復(fù)制變量:
RUN;
其中的VAR語句指定用來聚類的變量。COPY語句把指定的變量復(fù)制到OUTTREE=的數(shù)據(jù)集中。
PROC CLUSTER語句的主要選項有:
·METHOD=選項,這是必須指定的,此選項決定我們要用的聚類方法,主要由類間距離定義決定。方法有AVERAGE,CENTROID,COMPLETE, SINGLE, DENSITY, WARD, EML, FLEXIBLE, MCQUITTY, MEDIAN, TWOSTAGE等,其中DENSITY,TWOSTAGE等方法還要額外指定密度估計方法(K=,R=或HYBRID)。
·輸入DATA=數(shù)據(jù)集,可以是原始觀測數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。
·OUTTREE=輸出譜系聚類樹數(shù)據(jù)集,把譜系聚類樹輸出到一個數(shù)據(jù)集,可以用TREE過程繪圖并實際分類。
·STANDARD選項,把變量標準化為均值0,標準差1。
·PSEUDO選項和CCC選項。PSEUDO選項要求計算偽F和偽t2統(tǒng)計量,CCC選項要求計算R2、半偏R2和CCC統(tǒng)計量。其中CCC統(tǒng)計量也是一種考察聚類效果的統(tǒng)計量,CCC較大的聚類水平是較好的。
二、TREE過程用法
TREE過程可以把CLUSTER過程產(chǎn)生的OUTTREE=數(shù)據(jù)集作為輸入,畫出譜系聚類的樹圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。一般格式如下:
PROC TREE DATA=輸入聚類結(jié)果數(shù)據(jù)集
OUT=輸出數(shù)據(jù)集GRAPHICS
NCLUSTER=類數(shù)選項:
COPY復(fù)制變量:
RUN;
其中COPY語句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實際上這些變量也必須在CLUSTER過程中用COPY語句復(fù)制到OUTTREE一數(shù)據(jù)集)。PROC TREE語句的重要選項有:
DATA=數(shù)據(jù)集,指定從CLUSTER過程生成的OUTTREE=數(shù)據(jù)集作為輸入。
OUT=數(shù)據(jù)集,指定包含最后分類結(jié)果(每一個觀測屬于哪一類,用一個CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。
NCLUSTERS=選項,由用戶指定最后把樣本觀測分為多少個類。
HORIZONTAL,畫樹圖時橫向畫。
例:有三種不同鳶尾花(Setosa,、Versicolor、Virginica),種類信息存入了變量SPECIES,并對每一種測量了50棵植株的花瓣長(PETALLEN),花瓣寬(PETALWID),花萼長(SEPALLEN),花萼寬(SEPALWID)。這個數(shù)據(jù)己知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠?,假裝不知道樣本的分類情況(既不知道類數(shù)也不知道每一個觀測屬于的類別),讓SAS取進行聚類分析,為了進行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計量,使用如下過程:
部分結(jié)果如下:
這個輸出列出了把150個觀測每次合并兩類,共合并149次的過程。NCL列指定了聚類水平G(即這一步存在的單獨的類數(shù))。"-Clusters Joined-"為兩列,指明這一步合并了哪兩個類。其中OBxxx表示哪一個原始觀測,而CLxxx表示在哪一個聚類水平上產(chǎn)生的類。比如,NCL為149時合并的是OB16和OB76,即16號觀測和76號觀測,NCL為1合并的是CL5和CL2,即類水平為5時得到的類和類水平為2時得到的類, FREQ表示這次合并得到的類有多少個觀測。SPRSQ是半偏R2,RSQ是R2,ERSQ是在均勻零假設(shè)下的R2的近似期望值,CCC為CCC統(tǒng)計量,PSF為偽F統(tǒng)計量,PST2為偽t2統(tǒng)計量,Tie指示距離最小的候選類對是否有多對。
假設(shè)我們知道要分成3類,所以我們用如下的TREE過程繪制樹圖并產(chǎn)生分類結(jié)果數(shù)據(jù)集:
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學習提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時代的價值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時代的通行證? 在數(shù)字化浪潮席卷全球的今天,當企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11