
SAS編程PROC步——描述性統(tǒng)計(jì)量分析_數(shù)據(jù)分析師培訓(xùn)
描述性統(tǒng)計(jì)指標(biāo)的計(jì)算可以用四個(gè)不同的過程來實(shí)現(xiàn),它們分別是means過程、summary過程、univariate過程以及tabulate過程。它們在功能范圍和具體的操作方法上存在一定的差別,下面我們大概了解一下它們的異同點(diǎn)。
相同點(diǎn):他們均可計(jì)算出均數(shù)、標(biāo)準(zhǔn)差、方差、標(biāo)準(zhǔn)誤、總和、加權(quán)值的總和、最大值、最小值、全距、校正的和未校正的離差平方和、變異系數(shù)、樣本分布位置的t檢驗(yàn)統(tǒng)計(jì)量、遺漏數(shù)據(jù)和有效數(shù)據(jù)個(gè)數(shù)等,均可應(yīng)用by語句將樣本分割為若干個(gè)更小的樣本,以便分別進(jìn)行分析。
不同點(diǎn):
(1)means過程、summary過程、univariate過程可以計(jì)算樣本的偏度(skewness)和峰度(kurtosis),而tabulate過程不計(jì)算這些統(tǒng)計(jì)量;
(2)univariate過程可以計(jì)算出樣本的眾數(shù)(mode),其它三個(gè)過程不計(jì)算眾數(shù);
(3)summary過程執(zhí)行后不會自動給出分析的結(jié)果,須引用output語句和print過程來顯示分析結(jié)果,而其它三個(gè)過程則會自動顯示分析的結(jié)果;
(4)univariate過程具有統(tǒng)計(jì)制圖的功能,其它三個(gè)過程則沒有;
(5)tabulate過程不產(chǎn)生輸出資料文件(存儲各種輸出數(shù)據(jù)的文件),其它三個(gè)均產(chǎn)生輸出資料文件。
統(tǒng)計(jì)制圖的過程均可以實(shí)現(xiàn)對樣本分布特征的圖形表示,一般情況下可以使用的有chart過程、plot過程、gchart過程和gplot過程。大家有沒有發(fā)現(xiàn)前兩個(gè)和后兩個(gè)只有一個(gè)字母‘g’(代表graph)的差別,其實(shí)它們之間(只差一個(gè)字母g的過程之間)的統(tǒng)計(jì)描述功能是相同的,區(qū)別僅在于繪制出的圖形的復(fù)雜和美觀程度。
chart過程和plot過程繪制的圖形類似于我們用文本字符堆積起來的圖形,只能概括地反映出資料分布的大體形狀,實(shí)際上這兩個(gè)過程繪制的圖形并不能稱之為圖形,因?yàn)樗揪蜎]有涉及一般意義上圖形的任何一種元素(如顏色、分辨率等)。而gchart過程和gplot過程給出的是真正意義上的圖形,可以用很多的語句和選項(xiàng)來控制圖形的各方面的性質(zhì)和特征。
chart和gchart與plot和gplot的區(qū)別則體現(xiàn)在不同的作圖功能,前兩個(gè)過程可以繪制出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環(huán)形圖和星形圖等,后兩個(gè)過程通常用一個(gè)記錄中的兩個(gè)變量值表示點(diǎn)的坐標(biāo)來繪制圖形,如散點(diǎn)圖和線圖等。
描述性統(tǒng)計(jì)過程的一般格式
1. means過程的一般格式
proc means 選項(xiàng)列表; |
by 變量名稱(分組變量); |
class 變量名稱(分組變量); |
freq變量名稱(數(shù)值變量,用以表示相應(yīng)記錄出現(xiàn)的頻數(shù)) |
weight變量名稱(數(shù)值變量,用以表示相應(yīng)記錄的權(quán)重系數(shù)) |
var 變量名稱(待分析的數(shù)值變量); |
run; |
Proc means 語句后的選項(xiàng)主要用來指定所要計(jì)算的統(tǒng)計(jì)量,默認(rèn)情況下,Means過程會給出頻數(shù)、均數(shù)、標(biāo)準(zhǔn)差、最大值和最小值等,其余統(tǒng)計(jì)量的計(jì)算均需要在選項(xiàng)中指定。class語句所指定的分組變量用來進(jìn)行分組,而by語句所指定的分組變量是用來將數(shù)據(jù)分為若干個(gè)更小的樣本,以便SAS分別在各小樣本內(nèi)進(jìn)行各自獨(dú)立的處理。freq語句和weight語句分別引導(dǎo)代表記錄出現(xiàn)頻數(shù)和權(quán)重系數(shù)的數(shù)值變量。var語句引導(dǎo)所要進(jìn)行分析的所有變量的列表,SAS將對var語句所引導(dǎo)的所有變量分別進(jìn)行描述性統(tǒng)計(jì)分析。
2. summary過程的一般格式
proc summary 選項(xiàng)列表; |
by 變量名稱(分組變量); |
class 變量名稱(分組變量); |
freq變量名稱(數(shù)值變量,用以表示相應(yīng)記錄出現(xiàn)的頻數(shù)) |
weight變量名稱(數(shù)值變量,用以表示相應(yīng)記錄的權(quán)重系數(shù)) |
output |
var 變量名稱(待分析的數(shù)值變量); |
run; |
summary過程的格式和means過程可以說是完全相同的,各條語句和選項(xiàng)的含義也是相同的,包括在means過程中未列出的output語句也可以應(yīng)用于means過程,只是此語句在summary過程應(yīng)用較多(這樣才能將分析結(jié)果顯示出來),所以才將其列入一般格式中。output語句用來對分析結(jié)果輸出為數(shù)據(jù)文件進(jìn)行控制,其后的選項(xiàng)可有可無,若無則SAS按照默認(rèn)方式進(jìn)行?!皁ut=數(shù)據(jù)集名”用來定義輸出數(shù)據(jù)文件的文件名稱,文件名的格式和數(shù)據(jù)步中數(shù)據(jù)文件名相同?!敖y(tǒng)計(jì)量關(guān)鍵字=自定義變量名”用來自定義輸出數(shù)據(jù)文件中各種統(tǒng)計(jì)量的變量名稱,前者是系統(tǒng)定義的(和proc語句后選項(xiàng)中的統(tǒng)計(jì)量關(guān)鍵字完全相同),必須正確無誤,后者可自行定義。默認(rèn)狀態(tài)下輸出統(tǒng)計(jì)量只有頻數(shù)、均數(shù)、標(biāo)準(zhǔn)差、最大值和最小值,在默認(rèn)狀態(tài)不能滿足需要時(shí)這一選項(xiàng)則是必需的。
3. univariate過程的一般格式
proc univariate 選項(xiàng)列表; |
by 變量名稱(分組變量); |
class 變量名稱(分組變量); |
freq變量名稱(數(shù)值變量,用以表示相應(yīng)記錄出現(xiàn)的頻數(shù)) |
weight變量名稱(數(shù)值變量,用以表示相應(yīng)記錄的權(quán)重系數(shù)) |
histogram 變量名稱/選項(xiàng)列表 |
output pctlpts=<百分位數(shù)…> <指定需要的百分位數(shù)> pctlpre=<新變量名列> <指定所需百分位數(shù)對應(yīng)的輸出變量名> |
var 變量名稱(待分析的數(shù)值變量); |
run; |
univariate過程和以上兩個(gè)過程的格式非常相似,相同的語句和選項(xiàng)其含義也相同,所不同的是某些統(tǒng)計(jì)量只能在univariate過程中計(jì)算(如眾數(shù)),以及univariate過程中所具有的繪圖功能。histogram語句即用來指示SAS對其后所指定的變量繪制直方圖,其后的選項(xiàng)用來指示SAS添加不同類型的擬合圖形(如正態(tài)分布的分布密度曲線)。
4. tabulate過程的一般格式
proc tabulate 選項(xiàng)列表; |
by 變量名稱(分組變量); |
class 變量名稱(分組變量); |
freq變量名稱(數(shù)值變量,用以表示相應(yīng)記錄出現(xiàn)的頻數(shù)) |
weight變量名稱(數(shù)值變量,用以表示相應(yīng)記錄的權(quán)重系數(shù)) |
table <<頁變量表達(dá)式>,<行變量表達(dá)式>,<列變量表達(dá)式>> |
var 變量名稱(待分析的數(shù)值變量,統(tǒng)計(jì)量列入相應(yīng)的表單元格); |
run; |
tabulate過程和上述幾個(gè)過程的格式也基本相似,相同的語句和選項(xiàng)也代表相同的含義。最大的不同也是tabulate過程中最為重要的是table語句,他用來定義表格的具體格式以及表格中所要包括的統(tǒng)計(jì)量。
5. gchart過程的一般格式
proc gchart 選項(xiàng)列表; |
||||||||||||||||||||
圖形關(guān)鍵詞變量名稱/選項(xiàng)列表 |
||||||||||||||||||||
run;
|
此過程格式簡單,復(fù)雜的地方在于圖形關(guān)鍵字(每個(gè)圖形關(guān)鍵字對應(yīng)一種圖形類型)所引導(dǎo)的語句,這里是控制圖形類型及圖形要素的地方,涉及到眾多的關(guān)鍵字和選項(xiàng)。gchart過程可以使用的圖形關(guān)鍵字及其所繪制的圖形類型見下表(表2.1)。
表2.1gchart過程可以使用的圖形關(guān)鍵字及其所繪制的圖形類型
圖形關(guān)鍵字后的變量名用以指定進(jìn)行圖形描述時(shí)的分組變量,可以是數(shù)值型的(此時(shí)以各組的組中值為分組的標(biāo)志),也可以是字符型的。其后的選項(xiàng)比較重要的有:(1)type=統(tǒng)計(jì)量關(guān)鍵字,表示以圖形對變量(sumvar所指定的變量)的哪一種統(tǒng)計(jì)量進(jìn)行描述,比如頻數(shù)(freq)、均數(shù)(mean)、總計(jì)(sum)、頻數(shù)百分比(pctn)等;(2)subgroup=變量名(分組變量),指定要進(jìn)行分組(各組段內(nèi)再分組)的變量;(3)sumvar=變量名(數(shù)值變量),指定要進(jìn)行統(tǒng)計(jì)計(jì)算的變量,也就是“type=統(tǒng)計(jì)量關(guān)鍵字”選項(xiàng)中統(tǒng)計(jì)量的計(jì)算所依據(jù)的變量。其它的選項(xiàng)較少用到或系統(tǒng)默認(rèn)值即可基本滿足要求,這里還是少羅嗦,以后用到再說。
6. gplot過程的一般格式
proc gplot 選項(xiàng)列表; |
bubble 散點(diǎn)圖表達(dá)式 |
bubble2 散點(diǎn)圖表達(dá)式 |
plot散點(diǎn)圖表達(dá)式 |
plot2散點(diǎn)圖表達(dá)式 |
run; |
從gplot過程的一般格式中我們就可看出,此過程只能繪制兩種類型的圖形,bubble語句指示SAS繪制泡狀散點(diǎn)圖,plot語句指示SAS繪制點(diǎn)狀散點(diǎn)圖。bubble2語句和plot2語句指示SAS在同一區(qū)域內(nèi)(bubble2和bubble在同一區(qū)域,plot2和plot在同一區(qū)域)繪制第二個(gè)圖形,兩者的橫坐標(biāo)相同(同一變量),縱坐標(biāo)分別位于左右兩側(cè)(可以是同一變量,也可以是兩個(gè)不同的變量)。
7. 散點(diǎn)圖表達(dá)式的一般形式為:
(1)bubble和bubble2語句:縱坐標(biāo)變量名*橫坐標(biāo)變量名=泡尺寸變量名(變量值以泡的大小表示),三者均應(yīng)為數(shù)值變量;
?。?)plot和plot2語句:縱坐標(biāo)變量名*橫坐標(biāo)變量名<=n/分類變量名>,此處等號及其后的部分可以省略,此時(shí)SAS以默認(rèn)的散點(diǎn)類型繪制散點(diǎn)圖;若等號后為n(n為正整數(shù),是散點(diǎn)類型的編號),SAS則以指定的編號對應(yīng)的散點(diǎn)類型繪制散點(diǎn)圖;若等號后為分類變量名(可為字符型或數(shù)值型,為數(shù)值型時(shí)作為離散型變量處理,每一個(gè)值將被當(dāng)作一個(gè)類別),此變量的具體值(或與每個(gè)具體值對應(yīng)的圖形)將被作為散點(diǎn)用來繪制散點(diǎn)圖。
chart過程和plot過程的一般格式及各選項(xiàng)使用方法分別與gchart過程和gplot過程是基本相同的,不同之處僅在于后兩者中涉及到有關(guān)三維和圖形元素(顏色等)的語句和選項(xiàng)在前兩者中是無效的。例如vbar3d語句在chart過程中無效,bubble語句在plot過程中無效。其余的語句和選項(xiàng)使用方法完全相同,所以在掌握了gchart過程和gplot過程后,chart過程和plot過程你會不學(xué)自通。
描述性統(tǒng)計(jì)關(guān)鍵字及其含義
SAS中可計(jì)算的描述性統(tǒng)計(jì)量多達(dá)二十余種,大部分可在以上介紹的前四個(gè)過程中計(jì)算,個(gè)別統(tǒng)計(jì)量在某些過程中不能計(jì)算,大家需要注意,要不然系統(tǒng)顯示錯(cuò)誤信息時(shí)還不知道是怎么回事。
我經(jīng)常遇到這種情況,系統(tǒng)提示錯(cuò)誤(此類提示信息顯示在log窗口中)時(shí)總是摸不著頭腦,費(fèi)半天勁才能搞明白。沒辦法,摸著石頭過河嘛!不過這樣也并非一無是處,最起碼可以積累很多使用經(jīng)驗(yàn)。
下表(表2.2)列出SAS中可以計(jì)算的所有描述性統(tǒng)計(jì)量關(guān)鍵字及其含義,供大家使用時(shí)參考。
表2.2SAS中可以計(jì)算的描述性統(tǒng)計(jì)量關(guān)鍵字及其含義
關(guān)鍵字 |
所代表的含義 |
n |
有效數(shù)據(jù)記錄數(shù) |
nmiss |
缺失數(shù)據(jù)記錄數(shù) |
mean |
均數(shù) |
std |
|
stderr |
標(biāo)準(zhǔn)誤 |
var |
|
median |
中位數(shù) |
mode |
眾數(shù) |
cv |
變異系數(shù) |
max |
最大值 |
min |
最小值 |
range |
全距 |
sum |
總計(jì) |
sumwgt |
加權(quán)值總計(jì) |
css |
校正的離均差平方和 |
uss |
未校正的離均差平方和 |
clm |
可信限(上下界值) |
lclm |
可信限下側(cè)界值 |
uclm |
可信限上側(cè)界值 |
skew(skewness) |
偏度 |
kurt(kurtosis) |
峰度 |
t |
分布位置假設(shè)檢驗(yàn)之t統(tǒng)計(jì)量 |
probt |
上述t統(tǒng)計(jì)量對應(yīng)的概率值 |
q1 |
第一四分位數(shù) |
q3 |
第三四分位數(shù) |
qrange |
四分位數(shù)間距 |
p1 |
第一百分位數(shù) |
p5 |
第五百分位數(shù) |
p10 |
第十百分位數(shù) |
p90 |
第九十百分位數(shù) |
p95 |
第九十五百分位數(shù) |
p99 |
第九十九百分位數(shù) |
推薦學(xué)習(xí)書籍
《CDA一級教材》適合CDA一級考生備考,也適合業(yè)務(wù)及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線CDA網(wǎng)校,累計(jì)已有10萬+在讀~
免費(fèi)加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03