
SPSS科研統(tǒng)計(jì):數(shù)據(jù)的排序、拆分與合并
通常在進(jìn)行統(tǒng)計(jì)分析之前,可能要對(duì)數(shù)據(jù)文件進(jìn)行基本的處理操作,讓數(shù)據(jù)格式更加適合用于將要用到的統(tǒng)計(jì)分析方法。數(shù)據(jù)文件的基本操作主要包括數(shù)據(jù)的排序、數(shù)據(jù)的分組、數(shù)據(jù)的合并、數(shù)據(jù)的轉(zhuǎn)置、對(duì)變量值的求秩、對(duì)變量的編碼、計(jì)算新變量、數(shù)據(jù)的匯總與加權(quán)。整理數(shù)據(jù)文件的功能主要通過“數(shù)據(jù)”菜單和“轉(zhuǎn)換”菜單來完成。
一、數(shù)據(jù)的排序
一般我們創(chuàng)建的數(shù)據(jù)文件在編輯窗口中個(gè)案的前后次序是隨機(jī)的,其先后順序由錄入時(shí)決定。在做數(shù)據(jù)統(tǒng)計(jì)分析時(shí),有時(shí)希望按某種順序來觀察一批數(shù)據(jù),以便于更好地了解數(shù)據(jù)信息。例如:多城市兒童身高,希望身高是按從高到低的順序觀察。SPSS中的數(shù)據(jù)排序就是將數(shù)據(jù)編輯窗口中的數(shù)據(jù),按照指定的某一個(gè)或多個(gè)變量值的升序或降序重新排列,所指定的變量稱為排序變量。當(dāng)排序變量只有一個(gè)時(shí),為單值排序,則按照排序變量取值的大小次序?qū)€(gè)案數(shù)據(jù)重新整理后顯示。當(dāng)排序變量有多個(gè)時(shí),為多重排序。多重排序的第一個(gè)排序變量稱為主排序變量,其他排序變量依次稱為第二排序變量、第三排序變量等。在多重排序時(shí),個(gè)案先按主排序變量值的大小排序,當(dāng)主排序變量值一致時(shí),再按第二排序變量值大小排序,依次類推。數(shù)據(jù)排序的主要操作方法如下:
單擊“數(shù)據(jù)” |“排序個(gè)案”命令,彈出“排序個(gè)案“對(duì)話框,排序前數(shù)據(jù)如下圖所示。將排序變量選定后,設(shè)置好排序方式,如排序個(gè)案圖所示,單擊“確定”按鈕,會(huì)自動(dòng) 跳轉(zhuǎn)到排序后的數(shù)據(jù)編輯窗口。
(1) “排序依據(jù)”框是選擇指定的排序變量,若排序變量有多個(gè),將自動(dòng)按照它們?cè)诖肆斜淼娘@示次序,依次對(duì)數(shù)據(jù)進(jìn)行排序。
二、數(shù)據(jù)的拆分
在進(jìn)行統(tǒng)計(jì)分析時(shí),只需要對(duì)具有某種特性的數(shù)據(jù)進(jìn)行分析,那么就涉及到分組分析,則可以通過拆分?jǐn)?shù)據(jù)集來加以實(shí)現(xiàn),它能使數(shù)據(jù)分析過程按照分組變量進(jìn)行分組分析,得到各個(gè)組的結(jié)果。通過拆分功能,還可以實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的重新排序,使某一變量取值相同的個(gè)案集中在一起,便于觀察和比較。具體的操作方法如下:
單擊“數(shù)據(jù)”丨“拆分文件”命令,彈出“分割文件”對(duì)話框
(1) “分組方式”框用于選擇拆分的變量,此變量可以是一種及以上。
(2) 指定拆分方式。
分析所有個(gè)案,不創(chuàng)建組:是系統(tǒng)的默認(rèn)值,表示分析所有的個(gè)案,取消拆分,它可恢復(fù)分組前的狀態(tài);
比較組:分組分析,按組間比較的形式輸出結(jié)果;
按組組織輸出:分組分析,分別顯示各組所得的結(jié)果。
(3) 指定排序方式。
按分組變量排序文件:拆分時(shí)將數(shù)據(jù)按所用的拆分變量排序,這是系統(tǒng)默認(rèn)選項(xiàng);
文件已排序:標(biāo)識(shí)數(shù)據(jù)己經(jīng)按分組變量排序了,不需要重新排序。
拆分前數(shù)據(jù)
數(shù)據(jù)拆分的參數(shù)設(shè)置
選中拆分變量后,單擊“確定”按鈕,自動(dòng)彈出拆分后的數(shù)據(jù)編輯窗口,如上圖所示。右下側(cè)會(huì)出現(xiàn)“拆分條件”的提示,表明所做的拆分正在生效,它將在以后的分析中一直有效,而且會(huì)被存儲(chǔ)在數(shù)據(jù)集中,直到再次進(jìn)行設(shè)定為止。數(shù)據(jù)進(jìn)行拆分后,其分析結(jié)果的顯示表格,如下圖所示
拆分后收數(shù)據(jù)
三、數(shù)據(jù)的合并
當(dāng)數(shù)據(jù)量很大時(shí),經(jīng)常需要將一份大的數(shù)據(jù)分成幾個(gè)小部分,由不同的人對(duì)數(shù)據(jù)進(jìn)行錄入,以提高錄入效率。這樣就會(huì)出現(xiàn)一份大的數(shù)據(jù)分別存儲(chǔ)在幾個(gè)不同的數(shù)據(jù)文件中的現(xiàn)象。因此,將這些若干個(gè)小的數(shù)據(jù)文件合并成一個(gè)大的數(shù)據(jù)文件,是進(jìn)行各種統(tǒng)計(jì)分析的前提。SPSS數(shù)據(jù)文件的合并方式有兩種:縱向合并和橫向合并。在SPSS系統(tǒng)中,進(jìn)行合并的文件必須都存儲(chǔ)為SPSS數(shù)據(jù)格式。
(1)縱向合并
縱向合并指的是幾個(gè)數(shù)據(jù)集中的數(shù)據(jù)縱向相加,組成一個(gè)新的數(shù)據(jù)集,新數(shù)據(jù)集中的記錄數(shù)是原來幾個(gè)數(shù)據(jù)集中記錄數(shù)的總和,實(shí)質(zhì)就是將兩個(gè)數(shù)據(jù)文件的變量列,按照各個(gè)變量名的含義,一一對(duì)應(yīng)進(jìn)行首尾連接合并。合并的兩個(gè)數(shù)據(jù)文件的變量相同,合并的目的是增加分析個(gè)案。
實(shí)現(xiàn)SPSS數(shù)據(jù)文件的縱向合并應(yīng)遵循兩個(gè)條件:第一,兩個(gè)待合并的SPSS數(shù)據(jù)文件,其內(nèi)容合并是有實(shí)際意義的;第二,為方便SPSS數(shù)據(jù)文件的合并,在不同數(shù)據(jù)文件中,數(shù)據(jù)含義相同的列,最好起相同的名字,變量類型和變量長度也要盡量相同。這樣,將方便SPSS對(duì)變量的自動(dòng)對(duì)應(yīng)和匹配。
(2)橫向合并
橫向合并指的是按照記錄的次序,或者某個(gè)關(guān)鍵變量的數(shù)值,將不同數(shù)據(jù)集中的不同變量合并為一個(gè)數(shù)據(jù)集,新數(shù)據(jù)集中的變量數(shù)是所有原數(shù)據(jù)集中不重名變量的總和,實(shí)質(zhì)就是將兩個(gè)數(shù)據(jù)文件的記錄,按照記錄對(duì)應(yīng),一一進(jìn)行左右對(duì)接。合并的兩個(gè)數(shù)據(jù)文件的變量不同,但具有相同個(gè)案例數(shù)。
實(shí)現(xiàn)SPSS數(shù)據(jù)文件的橫向合并應(yīng)遵循三個(gè)條件,第一,如果不是按照記錄號(hào)對(duì)應(yīng)的規(guī)則進(jìn)行合并,則兩個(gè)數(shù)據(jù)文件必須至少有一個(gè)變量名相同的公共變量,這個(gè)變量是兩個(gè)數(shù)據(jù)文件橫向?qū)?yīng)合并的依據(jù),稱為關(guān)鍵變量。如學(xué)號(hào)、貴賓卡號(hào)等,關(guān)鍵變量可以是多個(gè);第二,如果是使用關(guān)鍵變量進(jìn)行合并的,則兩個(gè)數(shù)據(jù)文件都必須事先按關(guān)鍵變量進(jìn)行升序排列;第三,為方便SPSS數(shù)據(jù)文件的合并,在不同數(shù)據(jù)文件中,數(shù)據(jù)含義不相同的列,變量名不應(yīng)取相同的名稱。數(shù)據(jù)合并的操作方法如下:單擊“數(shù)據(jù)”丨“合并文件”丨“添加個(gè)案”命令,彈出添加個(gè)案文件選擇對(duì)話框操作即可。
打開數(shù)據(jù)合并窗口。因是橫向合并,所以選擇“添加變量”。第二個(gè)圖片顯示合并的數(shù)據(jù)文件。
“已排除的變量”是兩個(gè)文件中共同擁有的變量名,選擇它作為“關(guān)鍵變量”?!靶碌幕顒?dòng)數(shù)據(jù)集”是最后展示在結(jié)果中的變量名。變量名后的“*”表示當(dāng)前數(shù)據(jù)編輯窗口中的量,“+”表示指定文件中的變量?!鞍凑张判蛭募械年P(guān)鍵變量匹配個(gè)案”中通常選擇第一個(gè),即“兩個(gè)文件都提供個(gè)案”。
推薦學(xué)習(xí)書籍
《CDA一級(jí)教材》適合CDA一級(jí)考生備考,也適合業(yè)務(wù)及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線CDA網(wǎng)校,累計(jì)已有10萬+在讀~
免費(fèi)加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10