
spss讀取數(shù)據(jù)syntax語句
生活中,我們常常因為這樣或那樣的事情而需要從一個城市到另外一個城市。旅途前,我們需要考慮旅途中的各個環(huán)節(jié),比如說確定旅行方式(水、陸、空的選擇),交通工具的選擇及出行站點、出行車次(航班)等等。而把各種形式的數(shù)據(jù)按照自己的要求轉(zhuǎn)換為SPSS格式數(shù)據(jù),就好比我們從一個城市到另一個城市,而SPSS格式的數(shù)據(jù)就是我們的目的地。
和現(xiàn)實生活一樣,利用Syntax將各種形式的數(shù)據(jù)轉(zhuǎn)換為我們所需的SPSS格式數(shù)據(jù)也需要我們像旅途一樣考慮一些細節(jié)問題。例如:我們從一個數(shù)據(jù)庫文檔中讀取我們所需的數(shù)據(jù),首先確定SPSS與數(shù)據(jù)庫間采用何種連接方式(ODBC或JDBC),然后確定采集的數(shù)據(jù)來自何種數(shù)據(jù)庫(Oracle,DB2,SQL SERVER,ACCESS等),接下來就是確定類似出發(fā)站點、車次等一系列細節(jié)問題。這樣說來好像有點玄乎,下面將結(jié)合實例,看Syntax是如何一步一步的從數(shù)據(jù)庫、EXCEL、TXT等格式文檔中提取數(shù)據(jù)。
一、從數(shù)據(jù)庫中讀取數(shù)據(jù)
由于從數(shù)據(jù)庫中讀取數(shù)據(jù)需要輸入的代碼比較繁瑣,一般來說先利用菜單向?qū)Р僮鳎诮Y(jié)束前利用Paste將操作大致代碼導(dǎo)入Syntax編輯窗口中,然后再根據(jù)自己的需要對代碼做適當(dāng)?shù)男薷?。例如?/span>
GET DATA ***告訴SPSS你此行的目的,得到數(shù)據(jù)***.
/TYPE=ODBC ***接下來就是選擇海陸空了,omgd!是ODBC****.
/CONNECT= ***交通工具的選擇及細節(jié),利用交通工具將兩地連起來就有了CONNECT***.
'DSN=Microsoft Access;DBQ=c:\mydocuments\dm_demo.mdb;'+ (通常這些細節(jié)都利用向?qū)е苯由?
' DriverId=25;FIL=MS Access;MaxBufferSize=2048;PageTimeout=5;'
/SQL = 'SELECT * FROM CombinedTable'.
***上面安置完畢,到達目的地了,/SQL就好比你到目的地后所做之事***.
EXECUTE.
上面Syntax的作用是將ACCESS數(shù)據(jù)庫中CombinedTable表中所有數(shù)據(jù)導(dǎo)入SPSS,上面Syntax語句中紅色標(biāo)注的可以說是此語句的核心部分,①、/connect子語句說明從何種數(shù)據(jù)庫從提取數(shù)據(jù)及提取相關(guān)細節(jié),此過程通常由向?qū)?,一般需要用時復(fù)制-粘貼即可;②、/SQL子語句相比/CONNECT語句則是重中之重,也是此次旅途的終極目的。如果從2個不同的表中選取變量,則是
/SQL =
'SELECT * FROM [table1],[table2]'
' WHERE [conditions]'.
還有select與group by,order by,having 等語句聯(lián)合運用的情況,更多SQL語法知識則需參考數(shù)據(jù)庫相關(guān)書籍(這也是目前許多公司要求做數(shù)據(jù)分析的懂?dāng)?shù)據(jù)庫的原因之一)。
注:單純從數(shù)據(jù)庫中提取數(shù)據(jù)并不需要太多數(shù)據(jù)庫知識,單純了解SQL查詢語言就可以了,個人建議讀讀《SQL循序漸進》。
二、從EXCEL格式文件中讀取數(shù)據(jù)
利用Syntax語句從EXCEL中讀取數(shù)據(jù)并沒有太多的技巧,數(shù)據(jù)讀取過程可以簡單的分為2類,一類是讀取單表數(shù)據(jù),另一類則是讀取多表數(shù)據(jù)(與從數(shù)據(jù)庫中讀取數(shù)據(jù)語法類似,只是/CONNECT語句稍有不同)。首先簡單的說說第一類從單表中讀取數(shù)據(jù),例如:從我的文檔中讀取名叫data的EXCEL工作薄中表salary的[A3:H160]的數(shù)據(jù),且將讀取數(shù)據(jù)的第一行作為變量名,其Syntax代碼如下:
get data ***①告訴SPSS,你的目的—得到數(shù)據(jù)(get data)***.
/type=xls ***②讀的數(shù)據(jù)是什么類型(XLS OR XLSM<EXCEL2007>)***.
/file="C:/mydocuments/data.xls". ***③告訴SPSS文檔的位置***.
/sheet=name 'salary' ***④告訴SPSS你要讀取那個表(缺失時自動讀取第一個表)***.
/cellrange=range 'A3:H160' ***⑤告訴SPSS你要讀取表中那些數(shù)據(jù)***.
/readnames=on. ***⑥將讀取數(shù)據(jù)的第一行設(shè)置為變量名***.
上面語法明確的表達你的意圖,再聯(lián)系我們在旅途中的種種行為,這個語句就輕而易舉的被攻克了。值得一提的是,上面語句中的④⑤⑥三個子語句都可省略,省略后SPSS將從工作薄中第一個表讀取所有數(shù)據(jù),并將第一行默認為變量名,如果第一行為空,變量名則默認為VAR1,VAR2……,這一過程和利用菜單向?qū)Р僮餍Ч粯?,下面說說怎樣從多個表中讀取數(shù)據(jù),例如:
GET DATA
/TYPE=ODBC
/CONNECT=
'DSN=Excel Files;DBQ=c:\examples\data\sales.xls;' +
'DriverId=790;MaxBufferSize=2048;PageTimeout=5;'
/SQL =
'SELECT Location$.[Store Number], State, Region, City,'
' Power, Hand, Accessories,'
' Tires, Batteries, Gizmos, Dohickeys'
' FROM [Location$], [Tools$], [Auto$]'
' WHERE [Tools$].[Store Number]=[Location$].[Store Number]'
' AND [Auto$].[Store Number]=[Location$].[Store Number]'.
上面的代碼和從數(shù)據(jù)庫中讀取表數(shù)據(jù)完全一樣,只是在/CONNECT語句上做了些許變化,其他的并無區(qū)別,當(dāng)然重點還是后面的提取數(shù)據(jù)變量語句/SQL,這里要說明的是如果提取變量字符中含有空格的話就需要用[ ]給框起來了,正如上面示例代碼所示。 另外,不得不提的是從多表中讀取數(shù)據(jù)較從單表中讀取數(shù)據(jù)的一些局限性,比如不能像單表一樣隨意選擇數(shù)據(jù)讀取范圍;讀取表中的第一行非空字符都將強制讀取為SPSS中的變量;變量類型較單一,只提供了數(shù)字和字符兩種數(shù)據(jù)類型等等。
三、從TXT格式文件中讀取數(shù)據(jù)
利用向?qū)腡XT格式文件從讀取數(shù)據(jù)有時候會因數(shù)據(jù)格式整潔而很方便,有時又會因為格式混亂而使你后面的分析工作變的麻煩,而利用代碼則可以一次解決這種問題。通常讀取文本格式數(shù)據(jù)語句分為get data和data list兩種,采用何種語句完全憑個人喜好,當(dāng)然兩種方式各有所長,比如CSV文件或是很大的容量的文本數(shù)據(jù)用get data較data list就方便的多,而在處理程序內(nèi)數(shù)據(jù)(begin data……end data)或結(jié)構(gòu)相對較復(fù)雜的數(shù)據(jù)時用data list語句則較get data語句更方便些。根據(jù)文本數(shù)據(jù)格式,data list語句又有data list free/list/fixed之分,這里不便一一道來,通常一般的TXT格式的數(shù)據(jù)我們很少遇到,這里主要說說從網(wǎng)站數(shù)據(jù)庫中導(dǎo)出的CSV格式的數(shù)據(jù)轉(zhuǎn)換情況,例如,我們從網(wǎng)站中導(dǎo)出如下CSV格式的數(shù)據(jù)dara.csv:
ID,Name,Gender,Date Hired,Department
1,"Foster, Chantal",f,10/29/1998,1
2,"Healy, Jonathan",m,3/1/1992,3
3,"Walter, Wendy",f,1/23/1995,2
4,"Oliver, Kendall",f,10/28/2003,2
下面我們將像旅途一樣將此csv格式的數(shù)據(jù)轉(zhuǎn)換為我們所需的.sav格式,
get data ***①告訴SPSS,你的目的***.
/type=txt ***②告訴SPSS你要乘車還是坐船***.
/file='c:/mydocuments/data.csv' ***③找到車站碼頭***.
/delimiters= "," ***④司機強調(diào)路上安全(數(shù)據(jù)用","分隔)***.
/qualifier='" ' ***⑤司機介紹如何處理突發(fā)事故(比如數(shù)據(jù)中包含空格,逗號等特殊情況)***.
/arrangement=delimited ***⑥其他注意情況(限制情況)***.
/firstcase=2 ***⑦找到自己的座位(從第2行開始讀取數(shù)據(jù))***.
/variables= ID F3 Name A15 Gender A1
Date_Hired ADATE10 Department F1. ***⑧到了目的地確定適宜(設(shè)定變量名及格式)***.
此次Syntax旅途暫告一段落,當(dāng)然還有許多其他格式的數(shù)據(jù),這里不一一列舉,但通常都可以像旅途一樣實行轉(zhuǎn)換目的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11