
SPSS應(yīng)用—時間序列分析
預(yù)測:是對尚未發(fā)生或目前還不明確的事物進行預(yù)先的估計和推測,是在現(xiàn)時對事物將要發(fā)生的結(jié)果進行探討和研究,簡單地說就是指從已知事件測定未知事件。
為什么要預(yù)測呢,因為預(yù)測可以幫助了解事物發(fā)展的未來狀況后,人們可以在目前為它的到來做好準備,通過預(yù)測可以了解目前的決策所可能帶來的后果,并通過對后果的分析來確定目前的決策,力爭使目前的決策獲得最佳的未來結(jié)果。
我們進行預(yù)測的總的原則是:認識事物的發(fā)展變化規(guī)律,利用規(guī)律的必然性,是進行科學(xué)預(yù)測所應(yīng)遵循的總的原則。
這個總原則實際上就是事物發(fā)展的
1-“慣性”原則——事物變化發(fā)展的延續(xù)性;
2-“類推”原則——事物發(fā)展的類似性;
3-“相關(guān)”原則——事物的變化發(fā)展是相互聯(lián)系的;
4-“概率”原則——事物發(fā)展的推斷預(yù)測結(jié)果能以較大概率出現(xiàn),則結(jié)果成立、可用;
時間序列預(yù)測主要包括三種基本方法:
1-內(nèi)生時間序列預(yù)測技術(shù);2-外生時間序列預(yù)測技術(shù);3-主觀時間序列預(yù)測技術(shù);
當然今天我們主要討論內(nèi)生時間序列預(yù)測技術(shù)——也就是只關(guān)注時間序列的下的預(yù)測問題!
從數(shù)據(jù)分析的角度來考慮,我們需要研究:
序列是否在固定水平上下變動?
此水平是否也在變動?
是否有某種上升或下降的趨勢呢?
是否存在有季節(jié)性的模式?
是否季節(jié)性的模式也在變更呢?
是否存在周期性規(guī)律和模式?時間序列有一明顯的特性就是記憶性(memory),記憶性系指時間數(shù)列中的任一觀測值的表現(xiàn)皆受到過去觀測值影響。
時間序列主要考慮的因素是:
長期趨勢(Long-term trend)
博易智訊的馬博士剛剛把這個產(chǎn)品測試版給我,還是中文版,先睹為快吧!
我們通過案例來說明:(本案例并不想細致解釋預(yù)測模型的預(yù)測的假設(shè)檢驗問題,1-太復(fù)雜、2-相信軟件)
假設(shè)我們拿到一個時間序列數(shù)據(jù)集:某男裝生產(chǎn)線銷售額。一個產(chǎn)品分類銷售公司會根據(jù)過去 10 年的銷售數(shù)據(jù)來預(yù)測其男裝生產(chǎn)線的月銷售情況。
現(xiàn)在我們得到了10年120個歷史銷售數(shù)據(jù),理論上講,歷史數(shù)據(jù)越多預(yù)測越穩(wěn)定,一般也要24個歷史數(shù)據(jù)才行!
大家看到,原則上講數(shù)據(jù)中沒有時間變量,實際上也不需要時間變量,但你必須知道時間的起點和時間間隔。
當我們現(xiàn)在預(yù)測方法創(chuàng)建模型時,記?。阂欢ㄒ榷x數(shù)據(jù)的時間序列和標記!
這時候你要決定你的時間序列數(shù)據(jù)的開始時間,時間間隔,周期!在我們這個案例中,你要決定季度是否是你考 慮周期性或季節(jié)性的影響因素,軟件能夠偵測到你的數(shù)據(jù)的季節(jié)性變化因子。
定義了時間序列的時間標記后,數(shù)據(jù)集自動生成四個新的變量:YEAR、QUARTER、MONTH和DATE(時間標簽)。
接下來:為了幫我們找到適當?shù)哪P停詈孟壤L制時間序列。時間序列的可視化檢查通常可以很好地指導(dǎo)并幫助我們進行選擇。另外,我們需要弄清以下幾點:
此序列是否存在整體趨勢?如果是,趨勢是顯示持續(xù)存在還是顯示將隨時間而消逝?
? 此序列是否顯示季節(jié)變化?如果是,那么這種季節(jié)的波動是隨時間而加劇還是持續(xù)穩(wěn)定存在?
這時候我們就可以看到時間序列圖了!
我們看到:此序列顯示整體上升趨勢,即序列值隨時間而增加。上升趨勢似乎將持續(xù),即為線性趨勢。此序列還有一個明顯的季節(jié)特征,即年度高點在十二月。季節(jié)變化顯示隨上升序列而增長的趨勢,表明是乘法季節(jié)模型而不是加法季節(jié)模型。
此時,我們對時間序列的特征有了大致的了解,便可以開始嘗試構(gòu)建預(yù)測模型。時間序列預(yù)測模型的建立是一個不斷嘗試和選擇的過程。
PASW Statistics提供了三大類預(yù)測方法:1-專家建模器,2-指數(shù)平滑法,3-ARIMA
指數(shù)平滑法
指數(shù)平滑法有助于預(yù)測存在趨勢和/或季節(jié)的序列,此處數(shù)據(jù)同時體現(xiàn)上述兩種特征。創(chuàng)建最適當?shù)?a href='/map/zhishupinghuamoxing/' style='color:#000;font-size:inherit;'>指數(shù)平滑模型包括確定模型類型(此模型是否需要包含趨勢和/或季節(jié)),然后獲取最適合選定模型的參數(shù)。
1-簡單模型預(yù)測(即無趨勢也無季節(jié))
首 先我們采用最為簡單的建模方法,就是簡單模型,這里我們不斷嘗試的目的是讓大家熟悉各種預(yù)測模型,了解模型在什么時候不適合數(shù)據(jù),這是成功構(gòu)建模型的基本 技巧。我們先不討論模型的檢驗,只是直觀的看一下預(yù)測模型的擬合情況,最后我們確定了預(yù)測模型后我們再討論檢驗和預(yù)測值。
從圖中我們看到,雖然簡單模型確實顯示了漸進的上升趨勢,但并不是我們期望的結(jié)果,既沒有考慮季節(jié)性變化,也沒有周期性呈現(xiàn),直觀的講基本上與線性預(yù)測沒有差異。所以我們拒絕此模型。
2-Holt線性趨勢預(yù)測
Holt線性指數(shù)平滑法,一般選擇:針對等級的平滑系數(shù)lapha=0.1,針對趨勢的平滑系數(shù)gamma=0.2;
從上面的擬合情況看,Holt預(yù)測模型更平滑了,也就是說Holt模型比簡單模型顯現(xiàn)了更強的平滑趨勢,但未考慮季節(jié)因素,還是不理想,所以還應(yīng)放棄此模型。
3-簡單季節(jié)性模型
當我們考慮了季節(jié)性變化后,簡單季節(jié)性預(yù)測模型基本上較好的擬合了數(shù)據(jù)的大趨勢,也就是考慮了趨勢和季節(jié)。
4-Winters相乘法預(yù)測模型
我們再次選擇Winters預(yù)測模型,實際上這時候非統(tǒng)計專業(yè)人士其實已經(jīng)可以不用考慮Winters模型的原理了,因為對于大部分經(jīng)營分析人員,如果期望把每一個預(yù)測方式的細節(jié)都搞清楚,并不容易,也容易陷入數(shù)量層面的糾葛中,我們只要相信軟件算法就可以了。
此時,在數(shù)據(jù)集的時間跨度為10年,并且包含 10 個季節(jié)峰值(出現(xiàn)在每年十二月份)中,簡單季節(jié)模型和Winters模型都撲捉到了這10個峰值與實際數(shù)據(jù)中的10個年度峰值完全匹配的預(yù)測結(jié)果。此時,我們基本上可以得到了一個比較滿意的預(yù)測結(jié)果。
此時也說明,無論采用指數(shù)平滑的什么模型,只要考慮了季節(jié)因素,都可以得到較好結(jié)果,不同的季節(jié)性指數(shù)平滑方法只是細微差異了。
但是,我們仔細看預(yù)測值和擬合值,還是有一些上升和下降的趨勢和結(jié)構(gòu)沒有撲捉到。預(yù)測還有改進的需求!
5-ARIMA預(yù)測模型
ARIMA 模型是自回歸AR和移動平均MA加上差分考慮,但ARIMA模型就比較復(fù)雜了,對大部分經(jīng)營分析人員來講,要搞清楚原理和方程公式,太困難了!期望搞清楚 的人必須學(xué)過隨機過程,什么平穩(wěn)過程、白噪聲等,大部分人頭都大了,現(xiàn)在有了軟件就不問為什么了,只要知道什么數(shù)據(jù)In,什么結(jié)果Out,就可以了。
我們采用專家建模器,但指定僅限ARIMA模型,并考慮季節(jié)性因素。
此時,我們看到模型擬合并相比較簡單季節(jié)性和Winters模型沒有太大的優(yōu)勢,結(jié)果可接受,但是大家注意到?jīng)]有,實際上我們一直沒有考慮自變量的進入問題,假如我們有其它變量可能會影響到男裝銷售收入,情況又會發(fā)生什么變化呢?
本想早點完成這個時間序列的主題,但最近一直非常多的事情,又耽擱了這么長時間。朋友們問的問題沒有收尾總是不好,抓緊時間完成吧。
因為,后天要參加中國電信集團的一個EDA論壇,要仔細準備發(fā)言稿!在交流的過程中,發(fā)現(xiàn)大家都對預(yù)測問題非常關(guān)注,尤其是數(shù)據(jù)挖掘領(lǐng)域,有時候分類問題 與預(yù)測問題在表達上區(qū)分不開,有時候分類就是預(yù)測,比如通過判別分析、C5.0規(guī)則或Logistics回歸進行監(jiān)督類建模,得到的結(jié)論說該客戶是什么類 別等級,似乎也可以說是預(yù)測;當然,如果能夠預(yù)測該消費者什么時候流失,也就是進行了分類;這樣說吧,其實有時候并不需要嚴格區(qū)分分類和預(yù)測,關(guān)鍵是時間 點。從這也可以看出,預(yù)測問題內(nèi)涵和外延是非常寬泛的,但研究者心中要有數(shù),這決定了你得到的結(jié)果該如何應(yīng)用。
前面的博文提到,如果我們考慮時間序列預(yù)測包含有預(yù)測和干擾變量如何解決的問題。
從方法角度講,過去沒有統(tǒng)計分析軟件要完成預(yù)測可以說是困難的,現(xiàn)在有了軟件工具就方便多了。
從技術(shù)角度講:
預(yù)測模型如果能夠排除因為異常原因造成的時間點事件和時間段時間,就好了。例如某天停電沒有開業(yè),或者某一段時間比如發(fā)生甲型H1NI一周沒有營業(yè)收入,這些事件必須能夠告訴模型未來不會再發(fā)生了;
當然,我們也要把未來會重復(fù)發(fā)生的干擾因素納入模型,例如:我們學(xué)校某天要開運動會,小賣部的可樂銷量一定提高,或者我們學(xué)校7-8月份放暑假,銷量一定減少,像這樣的時間點和時間段事件未來會重復(fù)出現(xiàn),我們?nèi)绻軌蚋嬖V模型,那么預(yù)測會更準確。
當然如果我們建立的模型能夠預(yù)測未來,并能夠?qū)⑽磥砜深A(yù)見的事件,包括時間點和時間段干擾納入預(yù)測是非常好的事情啦!
甚至,我們應(yīng)該能夠把預(yù)測模型中的,預(yù)測未來周期內(nèi)的不可預(yù)見的時間點和時間段隨時干預(yù)預(yù)測結(jié)果,這就需要考慮如何將預(yù)測模型導(dǎo)入生產(chǎn)經(jīng)營分析系統(tǒng)了。
下面的數(shù)據(jù)延續(xù)前兩篇的案例,只是增加了自變量,(因為手頭這個案例沒有干預(yù)因素變量)
在我們增加了5個自變量后,采用預(yù)測建模方法,選擇專家建模器,但限制只在ARIMA模型中選擇。
確定后,得到分析結(jié)果,我們現(xiàn)在來看一下與原來的模型有什么不同。
從預(yù)測值看,比前一模型有了改進,至少這時候的模型捕捉了歷史數(shù)據(jù)中的下降峰值,這可以認為是當前比較適合的擬合值了。
如果我們觀察預(yù)測結(jié)果,可以發(fā)現(xiàn)模型選擇了兩個預(yù)測變量。注意:使用專家建模器時,只有在自變量與因變量之間具有統(tǒng)計顯著性關(guān)系時才會包括自變量。如果選 擇ARIMA模型,“變量”選項卡上指定的所有自變量(預(yù)測變量)都包括在該模型中,這點與使用專家建模器相反;
當確定了最終選擇的預(yù)測模型和方法后,我們就可以預(yù)測未來了,當然你要指定預(yù)測未來的時間點,這里我們時間包括年、季度和月份;假定我們預(yù)測未來半年的銷售收入。
我們分別設(shè)定:預(yù)測值輸出,95%置信度的上下限。注意:SPSS中文環(huán)境有個小Bug,必須改一下名字!
在選項中,選擇你的預(yù)測時間,預(yù)測期將根據(jù)你事先定義的數(shù)據(jù)時間格式填寫。(后面的模型為了讓大家看清楚,實際上我預(yù)測了一年的數(shù)據(jù),也就是2010年的4個季度的12個月)。
自變量的選擇問題,在預(yù)測未來半年的銷售收入中,ARIMA模型可以把其它預(yù)測變量納入考慮,但如何確定未來這些預(yù)測變量的值呢?
主要方法可以考慮:1)選擇最末期數(shù)據(jù);2)選擇近三期數(shù)據(jù)的平均;3)選擇近三期的移動平均
這里我們選近三期移動平均作為預(yù)測自變量數(shù)值。
上面就是預(yù)測結(jié)果!于此同時,SPSS活動數(shù)據(jù)集中也存儲了預(yù)測值!
最后,我們要解決時間序列預(yù)測的檢驗和統(tǒng)計問題!說實在話,我比較關(guān)注偏好商業(yè)應(yīng)用,就是看得見就做得到!從上面的分析,我們基本上就知道了哪種預(yù)測模型 更好,也就不去較真只有專業(yè)統(tǒng)計學(xué)者才關(guān)心的統(tǒng)計和檢驗問題,把這些交給統(tǒng)計專家或?qū)W術(shù)研究吧?。ㄈ绻闶菍憣W(xué)術(shù)論文,就必須強調(diào)這一點了?。?br />
實際上我們可以通過軟件得到各種統(tǒng)計檢驗指標和統(tǒng)計檢驗圖表!
最后我們看一眼統(tǒng)計檢驗指標結(jié)果:
大家可以把我們前面做的結(jié)果進行相互比較,或許你能夠看出哪些指標更好,哪些指標該如何評測了!
我看出來了,比如:Sig值越大越好,平穩(wěn)得R方也是越大越好吧!
Sig.列給出了 Ljung-Box 統(tǒng)計量的顯著性值,該檢驗是對模型中殘差錯誤的隨機檢驗;表示指定的模型是否正確。顯著性值小于0.05 表示殘差誤差不是隨機的,則意味著所觀測的序列中存在模型無法解釋的結(jié)構(gòu)。
平穩(wěn)的R方:顯示固定的R平方值。此統(tǒng)計量是序列中由模型解釋的總變異所占比例的估計值。該值越高(最大值為 1.0),則模型擬合會越好。
檢查模型殘差的自相關(guān)函數(shù) (ACF) 和偏自相關(guān)函數(shù) (PACF) 的值比只查看擬合優(yōu)度統(tǒng)計量能更多地從量化角度來了解模型。合理指定的時間模型將捕獲所有非隨機的變異,其中包括季節(jié)性、趨勢、循環(huán)周期以及其他重要的因 素。如果是這種情況,則任何誤差都不會隨著時間的推移與其自身相關(guān)聯(lián)(自關(guān)聯(lián))。這兩個自相關(guān)函數(shù)中的顯著結(jié)構(gòu)都可以表明基礎(chǔ)模型不完整。 如果你一定要理解RMSE或者MAE等統(tǒng)計檢驗量,只好找來教科書好好學(xué)習(xí)了!我想,等我要寫教科書的時候,一定會告訴大家如何檢驗這些統(tǒng)計量,并給出各種計算公式!但我的學(xué)生或讀者大部分是文科或企業(yè)經(jīng)營分析人員,講這些東西他們都會跑了!
大家不要忘了,SPSS時間序列預(yù)測模塊還包含模型應(yīng)用,也就是可以把預(yù)測模型轉(zhuǎn)存為XML模型文件,以后預(yù)測的時候就可以不用原始數(shù)據(jù)了!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03