
SAS學(xué)習(xí)筆記(4):數(shù)據(jù)管理功能上
前面幾篇讀書筆記介紹了SAS的基本概念和語言構(gòu)成,從本篇開始將和大家一起學(xué)習(xí)SAS的數(shù)據(jù)管理功能。
1. SAS數(shù)據(jù)步的運(yùn)行機(jī)制
data a;
put x= y= z=;
input x y;
z=x+y;
put x= y= z=;
cards;
10 20
100 200
;
run;
運(yùn)行結(jié)果
x=. y=. z=.
x=10 y=20 z=30
x=. y=. z=.
x=100 y=200 z=300
x=. y=. z=.
NOTE: 數(shù)據(jù)集 WORK.A 有 2 個觀測和 3 個變量。
從這個例子可以看出SAS數(shù)據(jù)步程序和普通程序的一個重大區(qū)別:SAS數(shù)據(jù)步如果有數(shù)據(jù)輸入,比如用INPUT、SET、MERGE、UPDATE、MODIFY等語句讀入數(shù)據(jù),則數(shù)據(jù)步中隱含了一個循環(huán),即數(shù)據(jù)步程序執(zhí)行到最后一個語句后,會返回到數(shù)據(jù)步內(nèi)的第一個可執(zhí)行語句開始繼續(xù)執(zhí)行,直到讀入數(shù)據(jù)語句(INPUT、SET、MERGE、UPDATE、MODIFY等)讀入了數(shù)據(jù)結(jié)束標(biāo)志為止才停止執(zhí)行數(shù)據(jù)步,并把讀入的各個觀測寫入在DATA語句中指定的數(shù)據(jù)集。如果沒有數(shù)據(jù)輸入而只是直接計算,則數(shù)據(jù)步程序不需要此隱含循環(huán)。
從原始數(shù)據(jù)輸入要使用input語句,數(shù)據(jù)的行寫在cards語句和一個只有一個頂頭的分號的行之間。
例如:自由格式
data a;
input name $ sex $ math chinese;
cards;
黎明 男 98 97
張紅 女 94 98
;
run;
如果各數(shù)據(jù)行的各個數(shù)據(jù)項是上下對齊的,還可以使用INPUT語句的列方式。這時,除了在INPUT關(guān)鍵字后面列出變量名外,還需要在每個變量名(及$符)后面列出該變量在數(shù)據(jù)行中所占據(jù)的起始位置與結(jié)束位置。
列方式不要求數(shù)據(jù)項之間分開,所以經(jīng)常用來輸入緊縮格式的數(shù)據(jù)。比如,我們要輸入一批身份證號碼,但只輸入其中的出生年、月、日信息,就可以用如下程序
如果需要完全原樣地輸入字符型數(shù)據(jù)(包括頭尾空格、單獨(dú)的小數(shù)點(diǎn)),可以用有格式輸入,即在字符型變量名和$符后加上一個輸入格式如CHAR1O.表示讀入10個字符。
有特殊格式的數(shù)據(jù)需要用有格式輸入,即在變量名后加格式名。其中最常見的是用來輸入日期。數(shù)據(jù)中的日期寫法經(jīng)常是多種多樣的,比如1998年10月9日可以寫成"1998-10-9","19981009","9/10/98"等等,為讀入這樣的日期數(shù)據(jù)就需要為它指定特殊的日期輸入格式。另外,日期數(shù)據(jù)在SAS中是按數(shù)值存儲的,所以如果要顯示日期值,也需要為它指定特殊的日期輸出格式。例如:
變量的屬性包括:
(1)字符型還是數(shù)值型。INPUT語句讀入字符型數(shù)據(jù)時要在變量名后面加$符。
(2)變量標(biāo)簽(LABEL)??梢越o變量加一個長度不超過40個字符的標(biāo)簽(可以用漢字,不超過20個漢字),標(biāo)簽可以用在以后的報表中。
(3)變量存儲長度(LENGTH)。數(shù)值型數(shù)據(jù)一般長度為8字節(jié),也可以對取值范圍小的變量規(guī)定較小的長度以節(jié)省存儲空間。字符型變量長度為其能存儲的字符個數(shù),缺省為8個字節(jié)
數(shù)據(jù)步中的ATTRIB語句可以指定變量的這些屬性。格式為:ATTRIB 變量名 屬性 變量名 屬性…;
可以同時指定多個變量的屬性。屬性為"屬性名=屬性值"這樣的寫法,可以為一個變量同時指定多個屬性。見如下的例子
文本格式:把原始數(shù)據(jù)放在一個普通的文本格式的文件中,然后用INFILE語句指定輸入文件名。例如,我們可以把數(shù)據(jù)行單獨(dú)生成一個文本文件aa.txt,假設(shè)放在了f:\中,可以用如下程序讀入文件中的數(shù)據(jù)并生成數(shù)據(jù)集:
data zz;
infile 'f:\aa.txt';
input name $ sex $ age;
run;
proc print;
run;
注意INFILE語句要寫在INPUT語句之前,有INFILE語句就不再有CARDS語句和空語句。INFILE關(guān)鍵字后面跟的是一個包含文件名的字符串,可以使用全路徑名,如果只有文件名則在當(dāng)前工作目錄尋找。
微機(jī)格式的數(shù)據(jù)文件
可以使用SAS系統(tǒng)File菜單中的Import命令讀入其它格式的文件。并且可以將操作步驟的程序保存下來留著下次用。
與大型數(shù)據(jù)庫的接口
SAS提供了兩種辦法可以訪問大型數(shù)據(jù)庫。SAS/ACCESS 可以直接連接Oracle、SYbase、SQLServer等大型數(shù)據(jù)庫。為了訪問儲存在這些數(shù)據(jù)庫中的表,需要對數(shù)據(jù)庫中的表在SAS中建立訪問描述文件(access descriptor),和視圖描述文件(view descriptor)。例如,在數(shù)據(jù)庫服務(wù)器DBIN中有一個數(shù)據(jù)庫Finance,其中有一個表Sales,用戶名guest用密碼anyone可以訪問此庫,就可以用以下程序在SAS中建立訪問描述文件和視圖文件:
其中大寫的部分是固定的。這段程序首先生成了訪問描述文件SASUSER. SALES. ACCESS,然后由此訪問描述文件生成了視圖文件SASUSER. SALESALL.VIEW。在SAS中視圖文件和數(shù)據(jù)集的使用是一樣的,可以使用數(shù)據(jù)集的地方都可以使用視圖文件。
可以用SET語句把一個已有數(shù)據(jù)集復(fù)制到一個新數(shù)據(jù)集,同時還可以進(jìn)行修改。如果只是復(fù)制數(shù)據(jù)集,也可以用SAS管理器(SAS Explorer)完成。比如要把數(shù)據(jù)集WORK.C9501復(fù)制為數(shù)據(jù)集SASUSER.CLS,只要用如下程序:
data sasuser.cls;
set c9501;
run;
在復(fù)制的同時我們還可以用SAS程序語句對生成的數(shù)據(jù)集進(jìn)行修改。比如,我們把超過100分的語文成績都改為100分,就可以用如下程序:
data c9501a;
set c9501;
if chinese>100 then chinese=100;
run;
在數(shù)據(jù)步中可以用KEEP語句或DROP語句指定要保留的變量或要丟棄的變量。
也可以指定一個條件取出數(shù)據(jù)集的某些行組成的子集。比如,我們希望取出數(shù)學(xué)分?jǐn)?shù)90分以上,語文分?jǐn)?shù)100分以上的學(xué)生的觀測,可以用如下的"子集IF語句":
在用SET語句引入數(shù)據(jù)集時可以給引入的數(shù)據(jù)集加選項,選項放在數(shù)據(jù)集名后的括號內(nèi):
數(shù)據(jù)集名(數(shù)據(jù)集選項)
選項包括KEEP=,表示引入時只要指定的變量;DROP=,表示不引入指定的變量;OBS=,表示讀取觀測時讀到指定的序號為止(是序號而不是觀測數(shù));FIRSTOBS=,表示從指定序號的觀測開始讀取而跳過之前的觀測不讀。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運(yùn)維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時用t.test,何時用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10