99精品国产高清一区二区,久久精品国产亚洲不av麻豆,久久久亚洲一区二区三区

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

SAS編程PROC步——描述性統(tǒng)計(jì)量分析_數(shù)據(jù)分析師培訓(xùn)?

2015-05-15

SAS編程PROC步——描述性統(tǒng)計(jì)量分析_數(shù)據(jù)分析師培訓(xùn)

描述性統(tǒng)計(jì)指標(biāo)的計(jì)算可以用四個(gè)不同的過(guò)程來(lái)實(shí)現(xiàn)，它們分別是means過(guò)程、summary過(guò)程、univariate過(guò)程以及tabulate過(guò)程。它們?cè)诠δ芊秶途唧w的操作方法上存在一定的差別，下面我們大概了解一下它們的異同點(diǎn)。

相同點(diǎn)：他們均可計(jì)算出均數(shù)、標(biāo)準(zhǔn)差、方差、標(biāo)準(zhǔn)誤、總和、加權(quán)值的總和、最大值、最小值、全距、校正的和未校正的離差平方和、變異系數(shù)、樣本分布位置的t檢驗(yàn)統(tǒng)計(jì)量、遺漏數(shù)據(jù)和有效數(shù)據(jù)個(gè)數(shù)等，均可應(yīng)用by語(yǔ)句將樣本分割為若干個(gè)更小的樣本，以便分別進(jìn)行分析。

不同點(diǎn)：

（1）means過(guò)程、summary過(guò)程、univariate過(guò)程可以計(jì)算樣本的偏度（skewness）和峰度（kurtosis），而tabulate過(guò)程不計(jì)算這些統(tǒng)計(jì)量；

（2）univariate過(guò)程可以計(jì)算出樣本的眾數(shù)（mode），其它三個(gè)過(guò)程不計(jì)算眾數(shù)；

（3）summary過(guò)程執(zhí)行后不會(huì)自動(dòng)給出分析的結(jié)果，須引用output語(yǔ)句和print過(guò)程來(lái)顯示分析結(jié)果，而其它三個(gè)過(guò)程則會(huì)自動(dòng)顯示分析的結(jié)果；

（4）univariate過(guò)程具有統(tǒng)計(jì)制圖的功能，其它三個(gè)過(guò)程則沒(méi)有；

（5）tabulate過(guò)程不產(chǎn)生輸出資料文件（存儲(chǔ)各種輸出數(shù)據(jù)的文件），其它三個(gè)均產(chǎn)生輸出資料文件。

　　統(tǒng)計(jì)制圖的過(guò)程均可以實(shí)現(xiàn)對(duì)樣本分布特征的圖形表示，一般情況下可以使用的有chart過(guò)程、plot過(guò)程、gchart過(guò)程和gplot過(guò)程。大家有沒(méi)有發(fā)現(xiàn)前兩個(gè)和后兩個(gè)只有一個(gè)字母‘g’（代表graph）的差別，其實(shí)它們之間（只差一個(gè)字母g的過(guò)程之間）的統(tǒng)計(jì)描述功能是相同的，區(qū)別僅在于繪制出的圖形的復(fù)雜和美觀程度。

chart過(guò)程和plot過(guò)程繪制的圖形類(lèi)似于我們用文本字符堆積起來(lái)的圖形，只能概括地反映出資料分布的大體形狀，實(shí)際上這兩個(gè)過(guò)程繪制的圖形并不能稱(chēng)之為圖形，因?yàn)樗揪蜎](méi)有涉及一般意義上圖形的任何一種元素（如顏色、分辨率等）。而gchart過(guò)程和gplot過(guò)程給出的是真正意義上的圖形，可以用很多的語(yǔ)句和選項(xiàng)來(lái)控制圖形的各方面的性質(zhì)和特征。

chart和gchart與plot和gplot的區(qū)別則體現(xiàn)在不同的作圖功能，前兩個(gè)過(guò)程可以繪制出的圖形主要有條形圖（包括橫條和豎條）、圓圖、環(huán)形圖和星形圖等，后兩個(gè)過(guò)程通常用一個(gè)記錄中的兩個(gè)變量值表示點(diǎn)的坐標(biāo)來(lái)繪制圖形，如散點(diǎn)圖和線(xiàn)圖等。

描述性統(tǒng)計(jì)過(guò)程的一般格式

　1. means過(guò)程的一般格式

proc means 選項(xiàng)列表；

by 變量名稱(chēng)（分組變量）；

class 變量名稱(chēng)（分組變量）；

freq變量名稱(chēng)（數(shù)值變量，用以表示相應(yīng)記錄出現(xiàn)的頻數(shù)）

weight變量名稱(chēng)（數(shù)值變量，用以表示相應(yīng)記錄的權(quán)重系數(shù)）

　var 變量名稱(chēng)（待分析的數(shù)值變量）；

run；

Proc means 語(yǔ)句后的選項(xiàng)主要用來(lái)指定所要計(jì)算的統(tǒng)計(jì)量，默認(rèn)情況下，Means過(guò)程會(huì)給出頻數(shù)、均數(shù)、標(biāo)準(zhǔn)差、最大值和最小值等，其余統(tǒng)計(jì)量的計(jì)算均需要在選項(xiàng)中指定。class語(yǔ)句所指定的分組變量用來(lái)進(jìn)行分組，而by語(yǔ)句所指定的分組變量是用來(lái)將數(shù)據(jù)分為若干個(gè)更小的樣本，以便SAS分別在各小樣本內(nèi)進(jìn)行各自獨(dú)立的處理。freq語(yǔ)句和weight語(yǔ)句分別引導(dǎo)代表記錄出現(xiàn)頻數(shù)和權(quán)重系數(shù)的數(shù)值變量。var語(yǔ)句引導(dǎo)所要進(jìn)行分析的所有變量的列表，SAS將對(duì)var語(yǔ)句所引導(dǎo)的所有變量分別進(jìn)行描述性統(tǒng)計(jì)分析。

2. summary過(guò)程的一般格式

proc summary 選項(xiàng)列表；

　by 變量名稱(chēng)（分組變量）；

　class 變量名稱(chēng)（分組變量）；

　freq變量名稱(chēng)（數(shù)值變量，用以表示相應(yīng)記錄出現(xiàn)的頻數(shù)）

　weight變量名稱(chēng)（數(shù)值變量，用以表示相應(yīng)記錄的權(quán)重系數(shù)）

　output <統(tǒng)計(jì)量關(guān)鍵字=自定義變量名>

　var 變量名稱(chēng)（待分析的數(shù)值變量）；

run；

summary過(guò)程的格式和means過(guò)程可以說(shuō)是完全相同的，各條語(yǔ)句和選項(xiàng)的含義也是相同的，包括在means過(guò)程中未列出的output語(yǔ)句也可以應(yīng)用于means過(guò)程，只是此語(yǔ)句在summary過(guò)程應(yīng)用較多（這樣才能將分析結(jié)果顯示出來(lái)），所以才將其列入一般格式中。output語(yǔ)句用來(lái)對(duì)分析結(jié)果輸出為數(shù)據(jù)文件進(jìn)行控制，其后的選項(xiàng)可有可無(wú)，若無(wú)則SAS按照默認(rèn)方式進(jìn)行。“out=數(shù)據(jù)集名”用來(lái)定義輸出數(shù)據(jù)文件的文件名稱(chēng)，文件名的格式和數(shù)據(jù)步中數(shù)據(jù)文件名相同?！敖y(tǒng)計(jì)量關(guān)鍵字=自定義變量名”用來(lái)自定義輸出數(shù)據(jù)文件中各種統(tǒng)計(jì)量的變量名稱(chēng)，前者是系統(tǒng)定義的（和proc語(yǔ)句后選項(xiàng)中的統(tǒng)計(jì)量關(guān)鍵字完全相同），必須正確無(wú)誤，后者可自行定義。默認(rèn)狀態(tài)下輸出統(tǒng)計(jì)量只有頻數(shù)、均數(shù)、標(biāo)準(zhǔn)差、最大值和最小值，在默認(rèn)狀態(tài)不能滿(mǎn)足需要時(shí)這一選項(xiàng)則是必需的。

3. univariate過(guò)程的一般格式

proc univariate 選項(xiàng)列表；

　by 變量名稱(chēng)（分組變量）；

　class 變量名稱(chēng)（分組變量）；

　freq變量名稱(chēng)（數(shù)值變量，用以表示相應(yīng)記錄出現(xiàn)的頻數(shù)）

　weight變量名稱(chēng)（數(shù)值變量，用以表示相應(yīng)記錄的權(quán)重系數(shù)）

　histogram 變量名稱(chēng)/選項(xiàng)列表

　output <統(tǒng)計(jì)量關(guān)鍵字=自定義變量名>

pctlpts=<百分位數(shù)…> <指定需要的百分位數(shù)>

pctlpre=<新變量名列> <指定所需百分位數(shù)對(duì)應(yīng)的輸出變量名>

　var 變量名稱(chēng)（待分析的數(shù)值變量）；

run；

univariate過(guò)程和以上兩個(gè)過(guò)程的格式非常相似，相同的語(yǔ)句和選項(xiàng)其含義也相同，所不同的是某些統(tǒng)計(jì)量只能在univariate過(guò)程中計(jì)算（如眾數(shù)），以及univariate過(guò)程中所具有的繪圖功能。histogram語(yǔ)句即用來(lái)指示SAS對(duì)其后所指定的變量繪制直方圖，其后的選項(xiàng)用來(lái)指示SAS添加不同類(lèi)型的擬合圖形（如正態(tài)分布的分布密度曲線(xiàn)）。

　　4. tabulate過(guò)程的一般格式

proc tabulate 選項(xiàng)列表；

　by 變量名稱(chēng)（分組變量）；

　class 變量名稱(chēng)（分組變量）；

　freq變量名稱(chēng)（數(shù)值變量，用以表示相應(yīng)記錄出現(xiàn)的頻數(shù)）

　weight變量名稱(chēng)（數(shù)值變量，用以表示相應(yīng)記錄的權(quán)重系數(shù)）

　table <<頁(yè)變量表達(dá)式>，<行變量表達(dá)式>，<列變量表達(dá)式>>

　var 變量名稱(chēng)（待分析的數(shù)值變量，統(tǒng)計(jì)量列入相應(yīng)的表單元格）；

run；

tabulate過(guò)程和上述幾個(gè)過(guò)程的格式也基本相似，相同的語(yǔ)句和選項(xiàng)也代表相同的含義。最大的不同也是tabulate過(guò)程中最為重要的是table語(yǔ)句，他用來(lái)定義表格的具體格式以及表格中所要包括的統(tǒng)計(jì)量。

5. gchart過(guò)程的一般格式

proc gchart 選項(xiàng)列表；

　圖形關(guān)鍵詞變量名稱(chēng)/選項(xiàng)列表

run；

圖形關(guān)鍵字	繪制的圖形類(lèi)型
block	方塊圖
hbar	水平的條形圖
hbar3d	水平的三維條形圖
vbar	豎立的條形圖
vbar3d	豎立的三維條形圖
pie	圓圖
pie3d	三維圓圖
donut	環(huán)形圖
star	星形圖

此過(guò)程格式簡(jiǎn)單，復(fù)雜的地方在于圖形關(guān)鍵字（每個(gè)圖形關(guān)鍵字對(duì)應(yīng)一種圖形類(lèi)型）所引導(dǎo)的語(yǔ)句，這里是控制圖形類(lèi)型及圖形要素的地方，涉及到眾多的關(guān)鍵字和選項(xiàng)。gchart過(guò)程可以使用的圖形關(guān)鍵字及其所繪制的圖形類(lèi)型見(jiàn)下表（表2.1）。

　　表2.1gchart過(guò)程可以使用的圖形關(guān)鍵字及其所繪制的圖形類(lèi)型

圖形關(guān)鍵字后的變量名用以指定進(jìn)行圖形描述時(shí)的分組變量，可以是數(shù)值型的（此時(shí)以各組的組中值為分組的標(biāo)志），也可以是字符型的。其后的選項(xiàng)比較重要的有：（1）type=統(tǒng)計(jì)量關(guān)鍵字，表示以圖形對(duì)變量（sumvar所指定的變量）的哪一種統(tǒng)計(jì)量進(jìn)行描述，比如頻數(shù)（freq）、均數(shù)（mean）、總計(jì)（sum）、頻數(shù)百分比（pctn）等；（2）subgroup=變量名（分組變量），指定要進(jìn)行分組（各組段內(nèi)再分組）的變量；（3）sumvar=變量名（數(shù)值變量），指定要進(jìn)行統(tǒng)計(jì)計(jì)算的變量，也就是“type=統(tǒng)計(jì)量關(guān)鍵字”選項(xiàng)中統(tǒng)計(jì)量的計(jì)算所依據(jù)的變量。其它的選項(xiàng)較少用到或系統(tǒng)默認(rèn)值即可基本滿(mǎn)足要求，這里還是少羅嗦，以后用到再說(shuō)。

　　6. gplot過(guò)程的一般格式

proc gplot 選項(xiàng)列表；

　bubble 散點(diǎn)圖表達(dá)式

　bubble2 散點(diǎn)圖表達(dá)式

　plot散點(diǎn)圖表達(dá)式

　plot2散點(diǎn)圖表達(dá)式

run；

　　從gplot過(guò)程的一般格式中我們就可看出，此過(guò)程只能繪制兩種類(lèi)型的圖形，bubble語(yǔ)句指示SAS繪制泡狀散點(diǎn)圖，plot語(yǔ)句指示SAS繪制點(diǎn)狀散點(diǎn)圖。bubble2語(yǔ)句和plot2語(yǔ)句指示SAS在同一區(qū)域內(nèi)（bubble2和bubble在同一區(qū)域，plot2和plot在同一區(qū)域）繪制第二個(gè)圖形，兩者的橫坐標(biāo)相同（同一變量），縱坐標(biāo)分別位于左右兩側(cè)（可以是同一變量，也可以是兩個(gè)不同的變量）。

　　7. 散點(diǎn)圖表達(dá)式的一般形式為：

　?。?）bubble和bubble2語(yǔ)句：縱坐標(biāo)變量名*橫坐標(biāo)變量名=泡尺寸變量名（變量值以泡的大小表示），三者均應(yīng)為數(shù)值變量；

　　（2）plot和plot2語(yǔ)句：縱坐標(biāo)變量名*橫坐標(biāo)變量名<=n/分類(lèi)變量名>，此處等號(hào)及其后的部分可以省略，此時(shí)SAS以默認(rèn)的散點(diǎn)類(lèi)型繪制散點(diǎn)圖；若等號(hào)后為n（n為正整數(shù)，是散點(diǎn)類(lèi)型的編號(hào)），SAS則以指定的編號(hào)對(duì)應(yīng)的散點(diǎn)類(lèi)型繪制散點(diǎn)圖；若等號(hào)后為分類(lèi)變量名（可為字符型或數(shù)值型，為數(shù)值型時(shí)作為離散型變量處理，每一個(gè)值將被當(dāng)作一個(gè)類(lèi)別），此變量的具體值（或與每個(gè)具體值對(duì)應(yīng)的圖形）將被作為散點(diǎn)用來(lái)繪制散點(diǎn)圖。

chart過(guò)程和plot過(guò)程的一般格式及各選項(xiàng)使用方法分別與gchart過(guò)程和gplot過(guò)程是基本相同的，不同之處僅在于后兩者中涉及到有關(guān)三維和圖形元素（顏色等）的語(yǔ)句和選項(xiàng)在前兩者中是無(wú)效的。例如vbar3d語(yǔ)句在chart過(guò)程中無(wú)效，bubble語(yǔ)句在plot過(guò)程中無(wú)效。其余的語(yǔ)句和選項(xiàng)使用方法完全相同，所以在掌握了gchart過(guò)程和gplot過(guò)程后，chart過(guò)程和plot過(guò)程你會(huì)不學(xué)自通。
描述性統(tǒng)計(jì)關(guān)鍵字及其含義

SAS中可計(jì)算的描述性統(tǒng)計(jì)量多達(dá)二十余種，大部分可在以上介紹的前四個(gè)過(guò)程中計(jì)算，個(gè)別統(tǒng)計(jì)量在某些過(guò)程中不能計(jì)算，大家需要注意，要不然系統(tǒng)顯示錯(cuò)誤信息時(shí)還不知道是怎么回事。

　　我經(jīng)常遇到這種情況，系統(tǒng)提示錯(cuò)誤（此類(lèi)提示信息顯示在log窗口中）時(shí)總是摸不著頭腦，費(fèi)半天勁才能搞明白。沒(méi)辦法，摸著石頭過(guò)河嘛！不過(guò)這樣也并非一無(wú)是處，最起碼可以積累很多使用經(jīng)驗(yàn)。

　　下表（表2.2）列出SAS中可以計(jì)算的所有描述性統(tǒng)計(jì)量關(guān)鍵字及其含義，供大家使用時(shí)參考。

表2.2SAS中可以計(jì)算的描述性統(tǒng)計(jì)量關(guān)鍵字及其含義

關(guān)鍵字	所代表的含義
n	有效數(shù)據(jù)記錄數(shù)
nmiss	缺失數(shù)據(jù)記錄數(shù)
mean	均數(shù)
std	標(biāo)準(zhǔn)差
stderr	標(biāo)準(zhǔn)誤
var	方差
median	中位數(shù)
mode	眾數(shù)
cv	變異系數(shù)
max	最大值
min	最小值
range	全距
sum	總計(jì)
sumwgt	加權(quán)值總計(jì)
css	校正的離均差平方和
uss	未校正的離均差平方和
clm	可信限（上下界值）
lclm	可信限下側(cè)界值
uclm	可信限上側(cè)界值
skew（skewness）	偏度
kurt（kurtosis）	峰度
t	分布位置假設(shè)檢驗(yàn)之t統(tǒng)計(jì)量
probt	上述t統(tǒng)計(jì)量對(duì)應(yīng)的概率值
q1	第一四分位數(shù)
q3	第三四分位數(shù)
qrange	四分位數(shù)間距
p1	第一百分位數(shù)
p5	第五百分位數(shù)
p10	第十百分位數(shù)
p90	第九十百分位數(shù)
p95	第九十五百分位數(shù)
p99	第九十九百分位數(shù)

推薦學(xué)習(xí)書(shū)籍
《CDA一級(jí)教材》適合CDA一級(jí)考生備考，也適合業(yè)務(wù)及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線(xiàn)CDA網(wǎng)校，累計(jì)已有10萬(wàn)+在讀~

免費(fèi)加入閱讀：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0