
利用SPSS進(jìn)行數(shù)據(jù)分析的基本步驟
大家都知道數(shù)據(jù)分析的基本流程為明確分析的目的和內(nèi)容——數(shù)據(jù)收集——數(shù)據(jù)處理——數(shù)據(jù)分析——數(shù)據(jù)展現(xiàn)——報(bào)告撰寫(xiě),今天這里所要說(shuō)的是如何利用SPSS進(jìn)行數(shù)據(jù)分析,也就是整個(gè)數(shù)據(jù)分析流程的中間部分(是指從將數(shù)據(jù)導(dǎo)入SPSS工具到利用SPSS工具產(chǎn)生分析結(jié)果,對(duì)結(jié)果進(jìn)行整理,形成圖表并解讀分析的過(guò)程)。
利用SPSS等工具進(jìn)行統(tǒng)計(jì)分析時(shí),需要經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析和數(shù)據(jù)展現(xiàn)這樣四個(gè)階段,下面中國(guó)統(tǒng)計(jì)網(wǎng)將對(duì)這幾個(gè)階段一一講述:
(一) 數(shù)據(jù)準(zhǔn)備
FAQ:這里為什么用數(shù)據(jù)準(zhǔn)備而不用數(shù)據(jù)采集?
數(shù)據(jù)采集是一個(gè)非常繁雜漫長(zhǎng)的過(guò)程,數(shù)據(jù)采集來(lái)源、采集頻率、采集人員安排等等這些足夠?qū)懸黄恼?,同時(shí)這里所要談的這個(gè)過(guò)程是從數(shù)據(jù)開(kāi)始說(shuō)起的,至于這些數(shù)據(jù)如何而來(lái),這里不作討論。
數(shù)據(jù)準(zhǔn)備過(guò)程主要包括兩部分內(nèi)容:SPSS數(shù)據(jù)文件的建立和變量編輯。在SPSS數(shù)據(jù)文件建立之前,我們需要分析的數(shù)據(jù)可能以各種各樣的形態(tài)存在,可能需要手動(dòng)錄入(小批量的數(shù)據(jù),但通常數(shù)據(jù)的錄入不在SPSS中直接進(jìn)行),也可能是以其他格式形態(tài)存在,例如:.xls/.xlsx/.xlsm格式,.txt文本格式或.CSV格式,SPSS支持多種數(shù)據(jù)格式文件的導(dǎo)入。
除此之外,SPSS還可以直接從數(shù)據(jù)庫(kù)中導(dǎo)入數(shù)據(jù),利用數(shù)據(jù)庫(kù)導(dǎo)入方式導(dǎo)入數(shù)據(jù)。這里需要注意的是,SPSS每執(zhí)行一條指令,都會(huì)重新讀取所需的數(shù)據(jù),如果你所取的數(shù)據(jù)是利用SQL語(yǔ)句從遠(yuǎn)程數(shù)據(jù)庫(kù)中調(diào)用的數(shù)據(jù)文件,那么將會(huì)非常耗時(shí),此時(shí)的小技巧是利用好Cache data功能,建立活動(dòng)的數(shù)據(jù)緩存區(qū),那樣SPSS的運(yùn)算速度會(huì)提升很多。
SPSS數(shù)據(jù)文件成功建立后,接下來(lái)的準(zhǔn)備工作則是對(duì)變量屬性進(jìn)行適當(dāng)?shù)恼{(diào)整和完善。例如你從公司的網(wǎng)站后臺(tái)提取銷售數(shù)據(jù),后臺(tái)數(shù)據(jù)庫(kù)為了記錄方便通常是將各種渠道銷售數(shù)據(jù)用數(shù)字代碼表示,而將這些數(shù)據(jù)成功的建成SPSS數(shù)據(jù)文件后,此時(shí)你需要對(duì)渠道代碼進(jìn)行編碼說(shuō)明,對(duì)缺失值進(jìn)行標(biāo)記等等。
(二) 數(shù)據(jù)清洗
此過(guò)程主要為下一步數(shù)據(jù)分析做進(jìn)一步的準(zhǔn)備,最終將數(shù)據(jù)清洗為滿足分析需求的具體數(shù)據(jù)集。期間主要內(nèi)容包括:
1)數(shù)據(jù)集的預(yù)先分析:對(duì)數(shù)據(jù)進(jìn)行必要的分析,如數(shù)據(jù)分組、排序、分布圖、平均數(shù)、標(biāo)準(zhǔn)差描述等,以掌握數(shù)據(jù)的基本特點(diǎn)和基本情況,保證后續(xù)工作的有效性,也為確定應(yīng)采用的統(tǒng)計(jì)檢驗(yàn)方法提供依據(jù)
2) 相關(guān)變量缺失值的查補(bǔ)檢查
3)分析前相關(guān)的校正和轉(zhuǎn)換工作,如根據(jù)銷售額對(duì)觀測(cè)值進(jìn)行分類,形成新的分類變量,從對(duì)應(yīng)的身份證信息中提取出地區(qū)、年齡、性別等新的變量信息等
4)觀測(cè)值的抽樣篩選,如抽取銷售額大于10萬(wàn)的產(chǎn)品等
5)其他數(shù)據(jù)清洗工作
Tips:期間注意規(guī)劃好清洗步驟和數(shù)據(jù)備份工作。
(三) 數(shù)據(jù)分析
此階段主要根據(jù)需求,選擇合適的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)分析和數(shù)據(jù)圖表的制作,這里選擇合適的方法是關(guān)鍵,相關(guān)操作SPSS軟件已經(jīng)標(biāo)準(zhǔn)流程化,我們只需要選擇合適的參數(shù)進(jìn)行相關(guān)操作即可。下表是根據(jù)自變量與因變量數(shù)目對(duì)各種統(tǒng)計(jì)方法的一個(gè)歸類:
除了上述方法外,SPSS 17.0以上的版本還提供了一個(gè)直銷模塊,這部分內(nèi)容是對(duì)市場(chǎng)營(yíng)銷活動(dòng)中的用的比較多的模型的整理濃縮,本貼暫時(shí)不對(duì)數(shù)據(jù)分析的相關(guān)內(nèi)容做深入詳細(xì)的介紹,以后將針對(duì)案例對(duì)這部分內(nèi)容進(jìn)行詳細(xì)敘述。
(四) 數(shù)據(jù)展現(xiàn)
常常聽(tīng)到有人抱怨SPSS輸出的圖表太丑,修改編輯起來(lái)太麻煩,真的是這樣嗎?其實(shí)SPSS軟件有提供很多的圖表供大家選擇,太多的時(shí)候,我們所使用的只是其中的一種而已。除此之外,SPSS也提供自己定義圖表模版功能供我們自由操作。
SPSS的菜單操作通常會(huì)輸出很多多余的結(jié)果,對(duì)這些結(jié)果進(jìn)行有針對(duì)性的挑選和組合才是工作的重點(diǎn),而不是一味的將所有分析結(jié)果一股腦的全搬到報(bào)告中去,在寫(xiě)報(bào)告前對(duì)這些結(jié)果進(jìn)行合理的簡(jiǎn)化和整合是必須的,與此同時(shí),相應(yīng)的結(jié)果解釋(探討是否接受或拒絕研究假設(shè),解釋結(jié)果形成的原因)以及相關(guān)含義衍生都在此部分完成。例如,我們進(jìn)行方差分析時(shí),SPSS可能直接輸出如下圖的結(jié)果,但我們展現(xiàn)結(jié)果的時(shí)候并不需要這么多看起來(lái)讓人眼花的數(shù)據(jù)結(jié)果,只需要從下表中提取出需要的那部分即可。
變異來(lái)源
型Ⅲ SS df 均方
F Sig.
整體模型
391.628 6 65.271
4.894 .001
Day
Round
Gender
271.367 3 90.456
106.297 2 53.148
13.964 1 13.964
6.783 .001
3.985 .026
1.047 .312
注:這里舉這個(gè)示例只是表達(dá)一種方法,對(duì)于模型的結(jié)果完整性并未作太多的考究
從上表三因素方差分析表可知,整體模型達(dá)顯著水平。其中Day和Round的主效應(yīng)達(dá)到顯著水平,但Gender的主效應(yīng)未達(dá)到顯著水平。除此之外,此模型還未考慮三者之間的交互效應(yīng)……(結(jié)合其他圖表的結(jié)果作深一步的分析說(shuō)明,并結(jié)合業(yè)務(wù)情況對(duì)結(jié)果進(jìn)行分析說(shuō)明)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10