
SPSS中異常值檢驗(yàn)的幾種方法介紹(2)_數(shù)據(jù)分析師
ARIMA 模型:
描述時(shí)間序列數(shù)據(jù)的變化規(guī)律和行為,它允許模型中包含趨勢(shì)變動(dòng)、季節(jié)變動(dòng)、循環(huán)變 動(dòng)和隨機(jī)波動(dòng)等綜合因素影響。具有較高的預(yù)測(cè)精度,可以把握過(guò)去數(shù)據(jù)變動(dòng)模式,有助于 解釋預(yù)測(cè)變動(dòng)規(guī)律,回答為什么這樣本想早點(diǎn)完成這個(gè)時(shí)間序列的主題,但最近一直非常多的事情,又 耽擱了這么長(zhǎng)時(shí)間。朋友們問(wèn)的問(wèn)題沒(méi)有收尾總是不好,抓緊時(shí)間完成吧。 因?yàn)?,后天要參加中?guó)電信集團(tuán)的一個(gè) EDA 論壇,要仔細(xì)準(zhǔn)備發(fā)言稿!在交流的過(guò)程 中,發(fā)現(xiàn)大家都對(duì)預(yù)測(cè)問(wèn)題非常關(guān)注,尤其是數(shù)據(jù)挖掘領(lǐng)域,有時(shí)候分類(lèi)問(wèn)題與預(yù)測(cè)問(wèn)題在 表達(dá)上區(qū)分不開(kāi),有時(shí)候分類(lèi)就是預(yù)測(cè),比如通過(guò)判別分析、C5.0 規(guī)則或 Logistics 回歸 進(jìn)行監(jiān)督類(lèi)建模,得到的結(jié)論說(shuō)該客戶(hù)是什么類(lèi)別等級(jí),似乎也可以說(shuō)是預(yù)測(cè);當(dāng)然,如果 能夠預(yù)測(cè)該消費(fèi)者什么時(shí)候流失,也就是進(jìn)行了分類(lèi);這樣說(shuō)吧,其實(shí)有時(shí)候并不需要嚴(yán)格 區(qū)分分類(lèi)和預(yù)測(cè),關(guān)鍵是時(shí)間點(diǎn)。從這也可以看出,預(yù)測(cè)問(wèn)題內(nèi)涵和外延是非常寬泛的,但 研究者心中要有數(shù),這決定了你得到的結(jié)果該如何應(yīng)用。 前面的博文提到,如果我們考慮時(shí)間序列預(yù)測(cè)包含有預(yù)測(cè)和干擾變量如何解決的問(wèn)題。 從方法角度講,過(guò)去沒(méi)有統(tǒng)計(jì)分析軟件要完成預(yù)測(cè)可以說(shuō)是困難的,現(xiàn)在有了軟件工具 就方便多了。 從技術(shù)角度講:
預(yù)測(cè)模型如果能夠排除因?yàn)楫惓T蛟斐傻臅r(shí)間點(diǎn)事件和時(shí)間段時(shí)間,就好了。例 如某天停電沒(méi)有開(kāi)業(yè),或者某一段時(shí)間比如發(fā)生甲型 H1NI 一周沒(méi)有營(yíng)業(yè)收入,這 些事件必須能夠告訴模型未來(lái)不會(huì)再發(fā)生了;當(dāng)然,我們也要把未來(lái)會(huì)重復(fù)發(fā)生的干擾因素納入模型,例如:我們學(xué)校某天要開(kāi) 運(yùn)動(dòng)會(huì),小賣(mài)部的可樂(lè)銷(xiāo)量一定提高,或者我們學(xué)校 7-8 月份放暑假,銷(xiāo)量一定減 少,像這樣的時(shí)間點(diǎn)和時(shí)間段事件未來(lái)會(huì)重復(fù)出現(xiàn),我們?nèi)绻軌蚋嬖V模型,那么 預(yù)測(cè)會(huì)更準(zhǔn)確。
當(dāng)然如果我們建立的模型能夠預(yù)測(cè)未來(lái),并能夠?qū)⑽磥?lái)可預(yù)見(jiàn)的事件,包括時(shí)間點(diǎn) 和時(shí)間段干擾納入預(yù)測(cè)是非常好的事情啦!
甚至,我們應(yīng)該能夠把預(yù)測(cè)模型中的,預(yù)測(cè)未來(lái)周期內(nèi)的不可預(yù)見(jiàn)的時(shí)間點(diǎn)和時(shí)間 段隨時(shí)干預(yù)預(yù)測(cè)結(jié)果,這就需要考慮如何將預(yù)測(cè)模型導(dǎo)入生產(chǎn)經(jīng)營(yíng)分析系統(tǒng)了。
下面的數(shù)據(jù)延續(xù)前兩篇的案例, 只是增加了自變量, (因?yàn)槭诸^這個(gè)案例沒(méi)有干預(yù)因素變量)
在我們?cè)黾恿?5 個(gè)自變量后,采用預(yù)測(cè)建模方法,選擇專(zhuān)家建模器,但限制只在 ARIMA 模 型中選擇。
確定后,得到分析結(jié)果,我們現(xiàn)在來(lái)看一下與原來(lái)的模型有什么不同。
從預(yù)測(cè)值看,比前一模型有了改進(jìn),至少這時(shí)候的模型捕捉了歷史數(shù)據(jù)中的下降峰值, 這可以認(rèn)為是當(dāng)前比較適合的擬合值了。 如果我們觀(guān)察預(yù)測(cè)結(jié)果,可以發(fā)現(xiàn)模型選擇了兩個(gè)預(yù)測(cè)變量。注意:使用專(zhuān)家建模器時(shí), 只有在自變量與因變量之間具有統(tǒng)計(jì)顯著性關(guān)系時(shí)才會(huì)包括自變量。如果選擇 ARIMA 模 型,“變量”選項(xiàng)卡上指定的所有自變量(預(yù)測(cè)變量)都包括在該模型中,這點(diǎn)與使用專(zhuān)家建 模器相反;
當(dāng)確定了最終選擇的預(yù)測(cè)模型和方法后,我們就可以預(yù)測(cè)未來(lái)了,當(dāng)然你要指定預(yù)測(cè)未 來(lái)的時(shí)間點(diǎn),這里我們時(shí)間包括年、季度和月份;假定我們預(yù)測(cè)未來(lái)半年的銷(xiāo)售收入。 我們分別設(shè)定:預(yù)測(cè)值輸出,95%置信度的上下限。注意:SPSS 中文環(huán)境有個(gè)小 Bug,
必須改一下名字!
在選項(xiàng)中,選擇你的預(yù)測(cè)時(shí)間,預(yù)測(cè)期將根據(jù)你事先定義的數(shù)據(jù)時(shí)間格式填寫(xiě)。(后面 的模型為了讓大家看清楚,實(shí)際上我預(yù)測(cè)了一年的數(shù)據(jù),也就是 2010 年的 4 個(gè)季度的 12 個(gè)月)。
自變量的選擇問(wèn)題,在預(yù)測(cè)未來(lái)半年的銷(xiāo)售收入中,ARIMA 模型可以把其它預(yù)測(cè)變量 納入考慮,但如何確定未來(lái)這些預(yù)測(cè)變量的值呢? 主要方法可以考慮:1)選擇最末期數(shù)據(jù);2)選擇近三期數(shù)據(jù)的平均;3)選擇近三期 的移動(dòng)平均 這里我們選近三期移動(dòng)平均作為預(yù)測(cè)自變量數(shù)值。
上面就是預(yù)測(cè)結(jié)果!于此同時(shí),SPSS 活動(dòng)數(shù)據(jù)集中也存儲(chǔ)了預(yù)測(cè)值!
最后,我們要解決時(shí)間序列預(yù)測(cè)的檢驗(yàn)和統(tǒng)計(jì)問(wèn)題!說(shuō)實(shí)在話(huà),我比較關(guān)注偏好商業(yè)應(yīng)用,就是看得見(jiàn)就做得到!從上面的分析,我們基本上就知道了哪種預(yù)測(cè)模型更好,也就不去較真只有專(zhuān)業(yè)統(tǒng)計(jì)學(xué)者才關(guān)心的統(tǒng)計(jì)和檢驗(yàn)問(wèn)題, 把這些交給統(tǒng)計(jì)專(zhuān)家或?qū)W術(shù)研究吧! 如 ( 果你是寫(xiě)學(xué)術(shù)論文,就必須強(qiáng)調(diào)這一點(diǎn)了!) 實(shí)際上我們可以通過(guò)軟件得到各種統(tǒng)計(jì)檢驗(yàn)指標(biāo)和統(tǒng)計(jì)檢驗(yàn)圖表!
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線(xiàn)” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類(lèi)核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11