
SPSS應(yīng)用—時間序列分析
預(yù)測:是對尚未發(fā)生或目前還不明確的事物進(jìn)行預(yù)先的估計(jì)和推測,是在現(xiàn)時對事物將要發(fā)生的結(jié)果進(jìn)行探討和研究,簡單地說就是指從已知事件測定未知事件。
為什么要預(yù)測呢,因?yàn)轭A(yù)測可以幫助了解事物發(fā)展的未來狀況后,人們可以在目前為它的到來做好準(zhǔn)備,通過預(yù)測可以了解目前的決策所可能帶來的后果,并通過對后果的分析來確定目前的決策,力爭使目前的決策獲得最佳的未來結(jié)果。
我們進(jìn)行預(yù)測的總的原則是:認(rèn)識事物的發(fā)展變化規(guī)律,利用規(guī)律的必然性,是進(jìn)行科學(xué)預(yù)測所應(yīng)遵循的總的原則。
這個總原則實(shí)際上就是事物發(fā)展的
1-“慣性”原則——事物變化發(fā)展的延續(xù)性;
2-“類推”原則——事物發(fā)展的類似性;
3-“相關(guān)”原則——事物的變化發(fā)展是相互聯(lián)系的;
4-“概率”原則——事物發(fā)展的推斷預(yù)測結(jié)果能以較大概率出現(xiàn),則結(jié)果成立、可用;
時間序列預(yù)測主要包括三種基本方法:
1-內(nèi)生時間序列預(yù)測技術(shù);2-外生時間序列預(yù)測技術(shù);3-主觀時間序列預(yù)測技術(shù);
當(dāng)然今天我們主要討論內(nèi)生時間序列預(yù)測技術(shù)——也就是只關(guān)注時間序列的下的預(yù)測問題!
從數(shù)據(jù)分析的角度來考慮,我們需要研究:
序列是否在固定水平上下變動?
此水平是否也在變動?
是否有某種上升或下降的趨勢呢?
是否存在有季節(jié)性的模式?
是否季節(jié)性的模式也在變更呢?
是否存在周期性規(guī)律和模式?時間序列有一明顯的特性就是記憶性(memory),記憶性系指時間數(shù)列中的任一觀測值的表現(xiàn)皆受到過去觀測值影響。
時間序列主要考慮的因素是:
長期趨勢(Long-term trend)
博易智訊的馬博士剛剛把這個產(chǎn)品測試版給我,還是中文版,先睹為快吧!
我們通過案例來說明:(本案例并不想細(xì)致解釋預(yù)測模型的預(yù)測的假設(shè)檢驗(yàn)問題,1-太復(fù)雜、2-相信軟件)
假設(shè)我們拿到一個時間序列數(shù)據(jù)集:某男裝生產(chǎn)線銷售額。一個產(chǎn)品分類銷售公司會根據(jù)過去 10 年的銷售數(shù)據(jù)來預(yù)測其男裝生產(chǎn)線的月銷售情況。
現(xiàn)在我們得到了10年120個歷史銷售數(shù)據(jù),理論上講,歷史數(shù)據(jù)越多預(yù)測越穩(wěn)定,一般也要24個歷史數(shù)據(jù)才行!
大家看到,原則上講數(shù)據(jù)中沒有時間變量,實(shí)際上也不需要時間變量,但你必須知道時間的起點(diǎn)和時間間隔。
當(dāng)我們現(xiàn)在預(yù)測方法創(chuàng)建模型時,記?。阂欢ㄒ榷x數(shù)據(jù)的時間序列和標(biāo)記!
這時候你要決定你的時間序列數(shù)據(jù)的開始時間,時間間隔,周期!在我們這個案例中,你要決定季度是否是你考 慮周期性或季節(jié)性的影響因素,軟件能夠偵測到你的數(shù)據(jù)的季節(jié)性變化因子。
定義了時間序列的時間標(biāo)記后,數(shù)據(jù)集自動生成四個新的變量:YEAR、QUARTER、MONTH和DATE(時間標(biāo)簽)。
接下來:為了幫我們找到適當(dāng)?shù)哪P?,最好先繪制時間序列。時間序列的可視化檢查通常可以很好地指導(dǎo)并幫助我們進(jìn)行選擇。另外,我們需要弄清以下幾點(diǎn):
此序列是否存在整體趨勢?如果是,趨勢是顯示持續(xù)存在還是顯示將隨時間而消逝?
? 此序列是否顯示季節(jié)變化?如果是,那么這種季節(jié)的波動是隨時間而加劇還是持續(xù)穩(wěn)定存在?
這時候我們就可以看到時間序列圖了!
我們看到:此序列顯示整體上升趨勢,即序列值隨時間而增加。上升趨勢似乎將持續(xù),即為線性趨勢。此序列還有一個明顯的季節(jié)特征,即年度高點(diǎn)在十二月。季節(jié)變化顯示隨上升序列而增長的趨勢,表明是乘法季節(jié)模型而不是加法季節(jié)模型。
此時,我們對時間序列的特征有了大致的了解,便可以開始嘗試構(gòu)建預(yù)測模型。時間序列預(yù)測模型的建立是一個不斷嘗試和選擇的過程。
PASW Statistics提供了三大類預(yù)測方法:1-專家建模器,2-指數(shù)平滑法,3-ARIMA
指數(shù)平滑法
指數(shù)平滑法有助于預(yù)測存在趨勢和/或季節(jié)的序列,此處數(shù)據(jù)同時體現(xiàn)上述兩種特征。創(chuàng)建最適當(dāng)?shù)?a href='/map/zhishupinghuamoxing/' style='color:#000;font-size:inherit;'>指數(shù)平滑模型包括確定模型類型(此模型是否需要包含趨勢和/或季節(jié)),然后獲取最適合選定模型的參數(shù)。
1-簡單模型預(yù)測(即無趨勢也無季節(jié))
首 先我們采用最為簡單的建模方法,就是簡單模型,這里我們不斷嘗試的目的是讓大家熟悉各種預(yù)測模型,了解模型在什么時候不適合數(shù)據(jù),這是成功構(gòu)建模型的基本 技巧。我們先不討論模型的檢驗(yàn),只是直觀的看一下預(yù)測模型的擬合情況,最后我們確定了預(yù)測模型后我們再討論檢驗(yàn)和預(yù)測值。
從圖中我們看到,雖然簡單模型確實(shí)顯示了漸進(jìn)的上升趨勢,但并不是我們期望的結(jié)果,既沒有考慮季節(jié)性變化,也沒有周期性呈現(xiàn),直觀的講基本上與線性預(yù)測沒有差異。所以我們拒絕此模型。
2-Holt線性趨勢預(yù)測
Holt線性指數(shù)平滑法,一般選擇:針對等級的平滑系數(shù)lapha=0.1,針對趨勢的平滑系數(shù)gamma=0.2;
從上面的擬合情況看,Holt預(yù)測模型更平滑了,也就是說Holt模型比簡單模型顯現(xiàn)了更強(qiáng)的平滑趨勢,但未考慮季節(jié)因素,還是不理想,所以還應(yīng)放棄此模型。
3-簡單季節(jié)性模型
當(dāng)我們考慮了季節(jié)性變化后,簡單季節(jié)性預(yù)測模型基本上較好的擬合了數(shù)據(jù)的大趨勢,也就是考慮了趨勢和季節(jié)。
4-Winters相乘法預(yù)測模型
我們再次選擇Winters預(yù)測模型,實(shí)際上這時候非統(tǒng)計(jì)專業(yè)人士其實(shí)已經(jīng)可以不用考慮Winters模型的原理了,因?yàn)閷τ诖蟛糠纸?jīng)營分析人員,如果期望把每一個預(yù)測方式的細(xì)節(jié)都搞清楚,并不容易,也容易陷入數(shù)量層面的糾葛中,我們只要相信軟件算法就可以了。
此時,在數(shù)據(jù)集的時間跨度為10年,并且包含 10 個季節(jié)峰值(出現(xiàn)在每年十二月份)中,簡單季節(jié)模型和Winters模型都撲捉到了這10個峰值與實(shí)際數(shù)據(jù)中的10個年度峰值完全匹配的預(yù)測結(jié)果。此時,我們基本上可以得到了一個比較滿意的預(yù)測結(jié)果。
此時也說明,無論采用指數(shù)平滑的什么模型,只要考慮了季節(jié)因素,都可以得到較好結(jié)果,不同的季節(jié)性指數(shù)平滑方法只是細(xì)微差異了。
但是,我們仔細(xì)看預(yù)測值和擬合值,還是有一些上升和下降的趨勢和結(jié)構(gòu)沒有撲捉到。預(yù)測還有改進(jìn)的需求!
5-ARIMA預(yù)測模型
ARIMA 模型是自回歸AR和移動平均MA加上差分考慮,但ARIMA模型就比較復(fù)雜了,對大部分經(jīng)營分析人員來講,要搞清楚原理和方程公式,太困難了!期望搞清楚 的人必須學(xué)過隨機(jī)過程,什么平穩(wěn)過程、白噪聲等,大部分人頭都大了,現(xiàn)在有了軟件就不問為什么了,只要知道什么數(shù)據(jù)In,什么結(jié)果Out,就可以了。
我們采用專家建模器,但指定僅限ARIMA模型,并考慮季節(jié)性因素。
此時,我們看到模型擬合并相比較簡單季節(jié)性和Winters模型沒有太大的優(yōu)勢,結(jié)果可接受,但是大家注意到?jīng)]有,實(shí)際上我們一直沒有考慮自變量的進(jìn)入問題,假如我們有其它變量可能會影響到男裝銷售收入,情況又會發(fā)生什么變化呢?
本想早點(diǎn)完成這個時間序列的主題,但最近一直非常多的事情,又耽擱了這么長時間。朋友們問的問題沒有收尾總是不好,抓緊時間完成吧。
因?yàn)?,后天要參加中國電信集團(tuán)的一個EDA論壇,要仔細(xì)準(zhǔn)備發(fā)言稿!在交流的過程中,發(fā)現(xiàn)大家都對預(yù)測問題非常關(guān)注,尤其是數(shù)據(jù)挖掘領(lǐng)域,有時候分類問題 與預(yù)測問題在表達(dá)上區(qū)分不開,有時候分類就是預(yù)測,比如通過判別分析、C5.0規(guī)則或Logistics回歸進(jìn)行監(jiān)督類建模,得到的結(jié)論說該客戶是什么類 別等級,似乎也可以說是預(yù)測;當(dāng)然,如果能夠預(yù)測該消費(fèi)者什么時候流失,也就是進(jìn)行了分類;這樣說吧,其實(shí)有時候并不需要嚴(yán)格區(qū)分分類和預(yù)測,關(guān)鍵是時間 點(diǎn)。從這也可以看出,預(yù)測問題內(nèi)涵和外延是非常寬泛的,但研究者心中要有數(shù),這決定了你得到的結(jié)果該如何應(yīng)用。
前面的博文提到,如果我們考慮時間序列預(yù)測包含有預(yù)測和干擾變量如何解決的問題。
從方法角度講,過去沒有統(tǒng)計(jì)分析軟件要完成預(yù)測可以說是困難的,現(xiàn)在有了軟件工具就方便多了。
從技術(shù)角度講:
預(yù)測模型如果能夠排除因?yàn)楫惓T蛟斐傻臅r間點(diǎn)事件和時間段時間,就好了。例如某天停電沒有開業(yè),或者某一段時間比如發(fā)生甲型H1NI一周沒有營業(yè)收入,這些事件必須能夠告訴模型未來不會再發(fā)生了;
當(dāng)然,我們也要把未來會重復(fù)發(fā)生的干擾因素納入模型,例如:我們學(xué)校某天要開運(yùn)動會,小賣部的可樂銷量一定提高,或者我們學(xué)校7-8月份放暑假,銷量一定減少,像這樣的時間點(diǎn)和時間段事件未來會重復(fù)出現(xiàn),我們?nèi)绻軌蚋嬖V模型,那么預(yù)測會更準(zhǔn)確。
當(dāng)然如果我們建立的模型能夠預(yù)測未來,并能夠?qū)⑽磥砜深A(yù)見的事件,包括時間點(diǎn)和時間段干擾納入預(yù)測是非常好的事情啦!
甚至,我們應(yīng)該能夠把預(yù)測模型中的,預(yù)測未來周期內(nèi)的不可預(yù)見的時間點(diǎn)和時間段隨時干預(yù)預(yù)測結(jié)果,這就需要考慮如何將預(yù)測模型導(dǎo)入生產(chǎn)經(jīng)營分析系統(tǒng)了。
下面的數(shù)據(jù)延續(xù)前兩篇的案例,只是增加了自變量,(因?yàn)槭诸^這個案例沒有干預(yù)因素變量)
在我們增加了5個自變量后,采用預(yù)測建模方法,選擇專家建模器,但限制只在ARIMA模型中選擇。
確定后,得到分析結(jié)果,我們現(xiàn)在來看一下與原來的模型有什么不同。
從預(yù)測值看,比前一模型有了改進(jìn),至少這時候的模型捕捉了歷史數(shù)據(jù)中的下降峰值,這可以認(rèn)為是當(dāng)前比較適合的擬合值了。
如果我們觀察預(yù)測結(jié)果,可以發(fā)現(xiàn)模型選擇了兩個預(yù)測變量。注意:使用專家建模器時,只有在自變量與因變量之間具有統(tǒng)計(jì)顯著性關(guān)系時才會包括自變量。如果選 擇ARIMA模型,“變量”選項(xiàng)卡上指定的所有自變量(預(yù)測變量)都包括在該模型中,這點(diǎn)與使用專家建模器相反;
當(dāng)確定了最終選擇的預(yù)測模型和方法后,我們就可以預(yù)測未來了,當(dāng)然你要指定預(yù)測未來的時間點(diǎn),這里我們時間包括年、季度和月份;假定我們預(yù)測未來半年的銷售收入。
我們分別設(shè)定:預(yù)測值輸出,95%置信度的上下限。注意:SPSS中文環(huán)境有個小Bug,必須改一下名字!
在選項(xiàng)中,選擇你的預(yù)測時間,預(yù)測期將根據(jù)你事先定義的數(shù)據(jù)時間格式填寫。(后面的模型為了讓大家看清楚,實(shí)際上我預(yù)測了一年的數(shù)據(jù),也就是2010年的4個季度的12個月)。
自變量的選擇問題,在預(yù)測未來半年的銷售收入中,ARIMA模型可以把其它預(yù)測變量納入考慮,但如何確定未來這些預(yù)測變量的值呢?
主要方法可以考慮:1)選擇最末期數(shù)據(jù);2)選擇近三期數(shù)據(jù)的平均;3)選擇近三期的移動平均
這里我們選近三期移動平均作為預(yù)測自變量數(shù)值。
上面就是預(yù)測結(jié)果!于此同時,SPSS活動數(shù)據(jù)集中也存儲了預(yù)測值!
最后,我們要解決時間序列預(yù)測的檢驗(yàn)和統(tǒng)計(jì)問題!說實(shí)在話,我比較關(guān)注偏好商業(yè)應(yīng)用,就是看得見就做得到!從上面的分析,我們基本上就知道了哪種預(yù)測模型 更好,也就不去較真只有專業(yè)統(tǒng)計(jì)學(xué)者才關(guān)心的統(tǒng)計(jì)和檢驗(yàn)問題,把這些交給統(tǒng)計(jì)專家或?qū)W術(shù)研究吧?。ㄈ绻闶菍憣W(xué)術(shù)論文,就必須強(qiáng)調(diào)這一點(diǎn)了!)
實(shí)際上我們可以通過軟件得到各種統(tǒng)計(jì)檢驗(yàn)指標(biāo)和統(tǒng)計(jì)檢驗(yàn)圖表!
最后我們看一眼統(tǒng)計(jì)檢驗(yàn)指標(biāo)結(jié)果:
大家可以把我們前面做的結(jié)果進(jìn)行相互比較,或許你能夠看出哪些指標(biāo)更好,哪些指標(biāo)該如何評測了!
我看出來了,比如:Sig值越大越好,平穩(wěn)得R方也是越大越好吧!
Sig.列給出了 Ljung-Box 統(tǒng)計(jì)量的顯著性值,該檢驗(yàn)是對模型中殘差錯誤的隨機(jī)檢驗(yàn);表示指定的模型是否正確。顯著性值小于0.05 表示殘差誤差不是隨機(jī)的,則意味著所觀測的序列中存在模型無法解釋的結(jié)構(gòu)。
平穩(wěn)的R方:顯示固定的R平方值。此統(tǒng)計(jì)量是序列中由模型解釋的總變異所占比例的估計(jì)值。該值越高(最大值為 1.0),則模型擬合會越好。
檢查模型殘差的自相關(guān)函數(shù) (ACF) 和偏自相關(guān)函數(shù) (PACF) 的值比只查看擬合優(yōu)度統(tǒng)計(jì)量能更多地從量化角度來了解模型。合理指定的時間模型將捕獲所有非隨機(jī)的變異,其中包括季節(jié)性、趨勢、循環(huán)周期以及其他重要的因 素。如果是這種情況,則任何誤差都不會隨著時間的推移與其自身相關(guān)聯(lián)(自關(guān)聯(lián))。這兩個自相關(guān)函數(shù)中的顯著結(jié)構(gòu)都可以表明基礎(chǔ)模型不完整。 如果你一定要理解RMSE或者M(jìn)AE等統(tǒng)計(jì)檢驗(yàn)量,只好找來教科書好好學(xué)習(xí)了!我想,等我要寫教科書的時候,一定會告訴大家如何檢驗(yàn)這些統(tǒng)計(jì)量,并給出各種計(jì)算公式!但我的學(xué)生或讀者大部分是文科或企業(yè)經(jīng)營分析人員,講這些東西他們都會跑了!
大家不要忘了,SPSS時間序列預(yù)測模塊還包含模型應(yīng)用,也就是可以把預(yù)測模型轉(zhuǎn)存為XML模型文件,以后預(yù)測的時候就可以不用原始數(shù)據(jù)了!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10