
本人用到了spss重要功能總結(jié)
一、SPSS篇
(1)用spss剔除異常值
異常值:一組觀測值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值。
一、analyze >> descriptive statistics >>descriptives>> 選擇變量(列)到右邊的框里>>點(diǎn)選save standardized values as variables >>選擇ok
二、在data里選中select cases,之后選擇if相關(guān),點(diǎn)按鈕設(shè)置,進(jìn)入后輸入-2<=變量&變量<=2,continue,之后Unselected casees are filtered 或者deleted,然后OK
(2)相關(guān)性分析
指標(biāo):相關(guān)性系數(shù)和p值。sig即p值,代表假設(shè)檢驗(yàn)中的顯著性,通常如果sig<0.05,
拒絕虛無假設(shè)(原假設(shè)),接受備擇假設(shè),反之則無充分理由拒絕虛無假設(shè)
對于相關(guān)分析,通常sig<0.05就是研究者想看到的結(jié)果,因?yàn)檫@意味著相關(guān)系數(shù)有統(tǒng)計(jì) 學(xué)意義,變量間的確存在相關(guān)
a.Spearson相關(guān):計(jì)算相關(guān)系數(shù)并作顯著性檢驗(yàn),適用于兩列變量都為正態(tài)分布的連續(xù)
變量或等間距測度的變量
b.kendall tau-b等級相關(guān) 計(jì)算相關(guān)系數(shù)并作顯著性檢驗(yàn),對數(shù)據(jù)分布沒有嚴(yán)格要求,
適用于檢驗(yàn)等級變量之間的關(guān)聯(lián)程度(秩相關(guān))
c.spearman 等級相關(guān) 計(jì)算相關(guān)系數(shù)并做顯著性檢驗(yàn),對數(shù)據(jù)分布沒有嚴(yán)格要求,適用
于等級變量或者等級變量不滿足正態(tài)分布的情況。
對于非等間距測度的連續(xù)變量,因?yàn)榉植疾幻骺梢允褂玫燃壪嚓P(guān)分析,也可以使用
Pearson 相關(guān)分析,
對于完全等級的離散變量,必須使用等級相關(guān)分析相關(guān)性
當(dāng)資料不服從雙變量正態(tài)分布或總體分布型未知,或原始數(shù)據(jù)是用等級表示時(shí),宜用
Spearman 或Kendall相關(guān)
一般情況下我們都某人數(shù)據(jù)服從正態(tài)分布,采用pearson相關(guān)系數(shù)
偏相關(guān):偏相關(guān)分析要考慮除卻分析的變量之外是否有其它變量影響到這兩個(gè)變量。(譬如,分析身高和短跑成績的相關(guān)性,因?yàn)榉位盍恳灿绊懙搅松砀吆投膛艹煽?,所以需要剔除這個(gè)變量的影響)
距離相關(guān)分析:計(jì)算個(gè)案之間距離相似性和相異性
(1)回歸分析
線性回歸、非線性回歸、分類回歸。線性回歸的定義:是基于最小二乘法原理產(chǎn)生的古典統(tǒng)計(jì)假設(shè)下的最優(yōu)線性無偏估計(jì)。是研究一個(gè)或多個(gè)自變量與一個(gè)因變量之間是否存在某種線性關(guān)系的統(tǒng)計(jì)學(xué)方法。
在統(tǒng)計(jì)量選項(xiàng)卡中一般勾選估計(jì)、模型擬合度、共線性診斷和DW檢驗(yàn)統(tǒng)計(jì)量。
一般以容忍度、方差膨脹因子(VIF,容忍度的倒數(shù))作為共線性診斷指標(biāo)。一般來說,容忍度的值介于0和1之間,如值太小,說明這個(gè)自變量與其它自變量間存在共線性問題;VIF值越大,則共線性問題越明顯,一般以小于10為判斷依據(jù)(Neter et al.,1985)。DW值用來檢驗(yàn)回歸分析中的殘差項(xiàng)是否存在自相關(guān)現(xiàn)象,DW值的取值介于0和4之間:殘差一階正相關(guān)時(shí),DW≈0;殘差一階負(fù)相關(guān)時(shí),DW≈4;殘差獨(dú)立時(shí),DW≈2。分析結(jié)果(如表5.3與表5.4)顯示,各變量的VIF都遠(yuǎn)小于10,DW值也符合要求,說明各個(gè)自變量之間不存在共線性問題。
分析結(jié)果解釋:首先看模型匯總表的R方,這個(gè)值位于0和1之間,表示你的方程能解釋你的模型的百分之多少,越接近1越好。然后看方差分析表,第一行的回歸對應(yīng)的最后邊的P值表征這個(gè)方程是不是可信(小于0.05則可信)。然后再看系數(shù)表,這個(gè)表里的P值會告訴你每個(gè)自變量在方程里是否可信,同時(shí)表里會展示每個(gè)自變量在方程中的系數(shù),有非標(biāo)準(zhǔn)化系數(shù)(主要看這個(gè))和標(biāo)準(zhǔn)化系數(shù)(你的數(shù)據(jù)標(biāo)準(zhǔn)化以后算出的系數(shù))。P-P圖上的每個(gè)空心圓都要盡量穿在那個(gè)線上邊,圓心越靠近那個(gè)線越好。
最小二乘法:
(1)描述統(tǒng)計(jì)、頻數(shù)分析
頻率:各個(gè)變量值的分布頻率及描述性統(tǒng)計(jì)量。
描述:均值,標(biāo)準(zhǔn)差,方差,范圍,峰度(峰度是用于衡量分布的集中程度或分布曲線的尖峭程度的指標(biāo)),偏度(偏度是用于衡量分布的不對稱程度或偏斜程度的指標(biāo))。
探索:因變量列表是將列表中的變量作為探索分析中的目標(biāo)變量,一般為連續(xù)性變量或者是比例變量。因子列表是目標(biāo)變量的分組變量,對所需分析的目標(biāo)變量進(jìn)行分組表示,屬性一般為字符型或者是數(shù)字型。
P-P圖:檢驗(yàn)數(shù)據(jù)服從的分布情況。
Q-Q圖:檢驗(yàn)數(shù)據(jù)服從的分布情況。
交叉率:交叉表分析主要用來檢驗(yàn)兩個(gè)變量之間是否存在關(guān)系,或者說是否獨(dú)立,其零假設(shè)為兩個(gè)變量之間沒有關(guān)系。
比率:計(jì)算兩個(gè)變量相對比的統(tǒng)計(jì)量特征。(作除法;直接對比)
P-P圖是根據(jù)變量的累積比例與指定分布的累積比例之間的關(guān)系所繪制的圖形。通過P-P圖可以檢驗(yàn)數(shù)據(jù)是否符合指定的分布。當(dāng)數(shù)據(jù)符合指定分布時(shí),P-P圖中各點(diǎn)近似呈一條直線。
(1)參數(shù)與非參數(shù)檢驗(yàn)
參數(shù)檢驗(yàn)的使用條件是被檢驗(yàn)的樣本總體服從正態(tài)分布,而非參數(shù)檢驗(yàn)使用條件自然就是總體不服從或不確定是否服從正態(tài)分布。
參數(shù)檢驗(yàn)parameter test,對參數(shù)平均值、方差進(jìn)行的統(tǒng)計(jì)檢驗(yàn),其運(yùn)用范圍有當(dāng)總體分布已知(如總體為正態(tài)分布),根據(jù)樣本數(shù)據(jù)對總體分布的統(tǒng)計(jì)參數(shù)進(jìn)行推斷。此時(shí),總體的分布形式是給定的或是假定的,只是其中一些參數(shù)的取值或范圍未知,分析的主要目的是估計(jì)參數(shù)的取值,或?qū)ζ溥M(jìn)行某種統(tǒng)計(jì)檢驗(yàn)。這類問題往往用參數(shù)檢驗(yàn)來進(jìn)行統(tǒng)計(jì)推斷。它不僅僅能夠?qū)傮w的特征參數(shù)進(jìn)行推斷,還能夠?qū)崿F(xiàn)兩個(gè)或多個(gè)總體的參數(shù)進(jìn)行比較。
參數(shù)檢驗(yàn):
比較常見的單樣本非參數(shù)檢驗(yàn)包括游程檢驗(yàn)和單樣本K-S檢驗(yàn)。
游程檢驗(yàn):
它通常用于檢測兩個(gè)不同的觀測值出現(xiàn)的次序是否具有隨機(jī)性。我們選擇分析——非參數(shù)檢驗(yàn)——舊對話框——游程,在主面板的檢驗(yàn)變量列表里選入我們的0,1變量列。選項(xiàng)卡里邊選擇描述性,其他默認(rèn)。割點(diǎn)可以全選。輸出結(jié)果看p值就可以了。
單樣本K-S檢驗(yàn):
這個(gè)就比較重要了。這個(gè)檢驗(yàn)的目的在于觀測樣本的分布。只要我們想做相關(guān)和回歸,那我們就最好用K-S檢驗(yàn)來檢查一下樣本的分布。畢竟pearson相關(guān)系數(shù)有效的一個(gè)重要條件就是樣本服從正態(tài)分布。
我們選擇分析——非參數(shù)檢驗(yàn)——舊對話框——1樣本K-S,在主對話框的檢驗(yàn)變量列表里邊選入我們想檢驗(yàn)分布的變量(比如一群病號的血細(xì)胞數(shù)),選項(xiàng)卡里勾選描述性和四分位數(shù),其他默認(rèn)。在檢驗(yàn)分布的下邊有四個(gè)供勾選的框框,這個(gè)要注意一下,常規(guī)指的就是正態(tài)分布,相等則是指均勻分布,勾選你想檢驗(yàn)的分布(一般是正態(tài)分布)。確定以后就可以看結(jié)果了。
多個(gè)獨(dú)立非參數(shù)檢驗(yàn):
K-W檢驗(yàn):用來判斷各樣本分別代表的總體是否一致。
兩相關(guān)樣本非參數(shù)檢驗(yàn):
wilcoxon檢驗(yàn):用來檢驗(yàn)兩個(gè)變量的分布是否有差異。
多個(gè)相關(guān)樣本非參數(shù)檢驗(yàn):
Friedman檢驗(yàn):用于檢驗(yàn)多個(gè)相關(guān)樣本是否來自同一整體,是wilcoxon的擴(kuò)展。
Kendallw檢驗(yàn):檢驗(yàn)樣本一致性的好壞。
(1)SPSS做預(yù)測
當(dāng)我們在預(yù)測方法創(chuàng)建模型時(shí),記住:一定要先定義數(shù)據(jù)的時(shí)間序列和標(biāo)記!
要知道數(shù)據(jù)的起點(diǎn)和時(shí)間間隔。
PASW Statistics提供了三大類預(yù)測方法:1-專家建模器,2-指數(shù)平滑法,3-ARIMA
指數(shù)平滑法
指數(shù)平滑法有助于預(yù)測存在趨勢和/或季節(jié)的序列,此處數(shù)據(jù)同時(shí)體現(xiàn)上述兩種特征。創(chuàng)建最適當(dāng)?shù)闹笖?shù)平滑模型包括確定模型類型(此模型是否需要包含趨勢和/或季節(jié)),然后獲取最適合選定模型的參數(shù)。
為了幫我們找到適當(dāng)?shù)哪P?,最好先繪制時(shí)間序列。時(shí)間序列的可視化檢查通??梢院芎玫刂笇?dǎo)并幫助我們進(jìn)行選擇。另外,我們需要弄清以下幾點(diǎn):
? 此序列是否存在整體趨勢?如果是,趨勢是顯示持續(xù)存在還是顯示將隨時(shí)間而消逝?
? 此序列是否顯示季節(jié)變化?如果是,那么這種季節(jié)的波動(dòng)是隨時(shí)間而加劇還是持續(xù)穩(wěn)定存在?
(解釋清楚回歸分析和相關(guān)性分析中的參數(shù)檢驗(yàn))
(6)spss做分類
兩步聚類、K-均值、系統(tǒng)聚類、決策樹、k-近鄰
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03