
大數(shù)據(jù)改變經(jīng)濟(jì)預(yù)測(cè)范式:經(jīng)濟(jì)預(yù)測(cè)中大數(shù)據(jù)應(yīng)用的挑戰(zhàn)
經(jīng)濟(jì)預(yù)測(cè)是經(jīng)濟(jì)學(xué)最重要的職能之一,也是政府、企業(yè)、個(gè)人等進(jìn)行決策的參考和依據(jù)。基于計(jì)量經(jīng)濟(jì)方法實(shí)施的經(jīng)濟(jì)預(yù)測(cè),特別是宏觀經(jīng)濟(jì)預(yù)測(cè),離不開經(jīng)濟(jì)統(tǒng)計(jì)的支撐。經(jīng)濟(jì)統(tǒng)計(jì)是經(jīng)濟(jì)預(yù)測(cè)得以實(shí)施的前提,為經(jīng)濟(jì)預(yù)測(cè)提供了最基礎(chǔ)的數(shù)據(jù)指標(biāo)。
大數(shù)據(jù)對(duì)經(jīng)濟(jì)預(yù)測(cè)的影響涉及數(shù)據(jù)來(lái)源、預(yù)測(cè)方法、預(yù)測(cè)結(jié)果等幾乎每一個(gè)環(huán)節(jié),在某種程度上改變了常規(guī)經(jīng)濟(jì)預(yù)測(cè)所遵循的基本范式。首先,經(jīng)濟(jì)預(yù)測(cè)的數(shù)據(jù)基礎(chǔ)發(fā)生很大變化。經(jīng)濟(jì)統(tǒng)計(jì)不再是數(shù)據(jù)指標(biāo)的唯一來(lái)源,基于互聯(lián)網(wǎng)技術(shù)產(chǎn)生的搜索數(shù)據(jù)、社交媒體數(shù)據(jù)、在線新聞、交易支付數(shù)據(jù)以及快遞服務(wù)數(shù)據(jù)等都可以用于經(jīng)濟(jì)預(yù)測(cè)。其次,數(shù)據(jù)指標(biāo)的生成也不再完全依賴傳統(tǒng)的抽樣調(diào)查、經(jīng)濟(jì)普查?;谒阉鲾?shù)據(jù)、社交媒體數(shù)據(jù)等網(wǎng)絡(luò)數(shù)據(jù)資源可以實(shí)時(shí)生成不同的數(shù)據(jù)指標(biāo)。再次,對(duì)經(jīng)濟(jì)預(yù)測(cè)所采用的方法、工具有了新的要求,通常是將傳統(tǒng)的計(jì)量經(jīng)濟(jì)方法與機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)等分析手段相互結(jié)合,以適應(yīng)大數(shù)據(jù)處理的需要。最后,大數(shù)據(jù)有助于經(jīng)濟(jì)預(yù)測(cè)結(jié)果的改善。一方面,在既有的計(jì)量經(jīng)濟(jì)預(yù)測(cè)模型中引入大數(shù)據(jù)及相應(yīng)的處理方法,能夠較為顯著地減少誤差、提高預(yù)測(cè)精度。另一方面,預(yù)測(cè)的時(shí)效性進(jìn)一步增強(qiáng)。在網(wǎng)絡(luò)在線數(shù)據(jù)的支撐下,數(shù)據(jù)指標(biāo)的滯后問題得以解決,近乎實(shí)時(shí)的即時(shí)預(yù)測(cè)已經(jīng)出現(xiàn)。
搜索數(shù)據(jù)的應(yīng)用提高預(yù)測(cè)精度
談及搜索數(shù)據(jù)在經(jīng)濟(jì)預(yù)測(cè)中的應(yīng)用,必然離不開對(duì)谷歌趨勢(shì)(Google Trends)數(shù)據(jù)的介紹。谷歌趨勢(shì)數(shù)據(jù)是針對(duì)某個(gè)地區(qū)不同時(shí)間特定關(guān)鍵詞查詢數(shù)量生成的查詢指數(shù),其構(gòu)造過(guò)程大致如下:(1)計(jì)算查詢份額(Query Share),即某個(gè)地區(qū)某個(gè)時(shí)間段包含某個(gè)關(guān)鍵詞的查詢數(shù)量占所有查詢的比重;(2)生成查詢指數(shù)(Query Index),將一段時(shí)間內(nèi)查詢份額的最高值標(biāo)準(zhǔn)化為100,并將初始時(shí)點(diǎn)的查詢份額標(biāo)準(zhǔn)化為0。谷歌將搜索查詢分成30個(gè)一級(jí)大類,并進(jìn)一步細(xì)分為250個(gè)二級(jí)類別,這樣便可很容易獲得數(shù)百個(gè)谷歌趨勢(shì)查詢指數(shù),查詢指數(shù)數(shù)據(jù)最早可追溯到2004年1月1日。
谷歌趨勢(shì)數(shù)據(jù)最早是由著名經(jīng)濟(jì)學(xué)家哈爾·瓦里安(Hal Varian)引入到經(jīng)濟(jì)預(yù)測(cè)中的。自2008年以來(lái),瓦里安教授與其合作者發(fā)布了一系列利用谷歌趨勢(shì)數(shù)據(jù)進(jìn)行經(jīng)濟(jì)預(yù)測(cè)的研究成果,預(yù)測(cè)內(nèi)容涉及汽車及零部件銷售額、失業(yè)救濟(jì)申領(lǐng)人數(shù)、旅行目的地、消費(fèi)者信心等。其基本思路是,在傳統(tǒng)的時(shí)間序列預(yù)測(cè)模型基礎(chǔ)上,加入谷歌趨勢(shì)生成的查詢指數(shù),以提高預(yù)測(cè)精度。瓦里安教授的預(yù)測(cè)實(shí)踐表明,借助谷歌趨勢(shì),能夠有助于即時(shí)預(yù)測(cè)精度的提高。相關(guān)事例還表明,在出現(xiàn)拐點(diǎn)時(shí)期,加入谷歌趨勢(shì)指數(shù)作為變量,也能取得較好的預(yù)測(cè)效果。這恰恰是以計(jì)量經(jīng)濟(jì)模型為基礎(chǔ)的常規(guī)經(jīng)濟(jì)預(yù)測(cè)一直未解決的難題。
近兩年來(lái),越來(lái)越多的歐美機(jī)構(gòu)及學(xué)者將谷歌趨勢(shì)數(shù)據(jù)運(yùn)用于不同類型經(jīng)濟(jì)活動(dòng)的預(yù)測(cè)中。例如,德國(guó)勞工研究所的學(xué)者利用谷歌趨勢(shì)數(shù)據(jù)對(duì)住房貸款違約比例進(jìn)行即時(shí)預(yù)測(cè),發(fā)現(xiàn)效果明顯優(yōu)于基礎(chǔ)的自回歸模型。愛爾蘭中央銀行的學(xué)者利用谷歌趨勢(shì)的相關(guān)概率指標(biāo),對(duì)其宏觀經(jīng)濟(jì)預(yù)測(cè)模型進(jìn)行隨時(shí)調(diào)整,成功提高了即時(shí)預(yù)測(cè)精度。
除了谷歌趨勢(shì)數(shù)據(jù)外,其他搜索引擎如必應(yīng)、百度等,其搜索數(shù)據(jù)也被用于經(jīng)濟(jì)預(yù)測(cè)。百度公司推出了與谷歌趨勢(shì)類似的“百度指數(shù)”,相關(guān)數(shù)據(jù)指標(biāo)也被用于經(jīng)濟(jì)預(yù)測(cè)。2014年,中國(guó)科學(xué)院大學(xué)的幾位學(xué)者將“百度關(guān)鍵字指數(shù)”納入到他們開發(fā)的“中國(guó)股票市場(chǎng)預(yù)測(cè)模型”中,將預(yù)測(cè)平均誤差值從之前的3.8%降低到1.4%。
媒體數(shù)據(jù)的應(yīng)用增強(qiáng)預(yù)測(cè)時(shí)效性
大數(shù)據(jù)處理和分析技術(shù)的快速發(fā)展,使得來(lái)自社交網(wǎng)站、在線新聞等渠道的文本數(shù)據(jù)也能夠被有效整理和量化,并用于經(jīng)濟(jì)預(yù)測(cè)。
荷蘭統(tǒng)計(jì)局(Statistics Netherlands)的學(xué)者嘗試?yán)蒙缃幻襟w數(shù)據(jù)對(duì)消費(fèi)者信心指數(shù)進(jìn)行預(yù)測(cè)。其大致思路是:(1)收集所有推特(Twitter)、臉書(Facebook)、領(lǐng)英(LinkedIn)等社交媒體數(shù)據(jù),分別構(gòu)造“基于社交媒體數(shù)據(jù)的消費(fèi)者信心指數(shù)”;(2)分析官方統(tǒng)計(jì)調(diào)查得到的“消費(fèi)者信心指數(shù)”與社交媒體消費(fèi)者信心指數(shù)之間的相關(guān)性;(3)基于兩者之間的相關(guān)關(guān)系,以社交媒體“消費(fèi)者信心指數(shù)”對(duì)官方統(tǒng)計(jì)“消費(fèi)者信心指數(shù)”進(jìn)行預(yù)測(cè)。根據(jù)分析,以臉書數(shù)據(jù)構(gòu)造的指數(shù)與官方指數(shù)之間不僅高度相關(guān)且存在協(xié)整關(guān)系。以推特?cái)?shù)據(jù)構(gòu)造的指數(shù)與官方指數(shù)同樣存在相關(guān)關(guān)系。與官方指數(shù)相比,社交媒體指數(shù)最大的優(yōu)勢(shì)在于及時(shí)性,能夠以兩周一次甚至一周一次的頻率構(gòu)造并發(fā)布。
比利時(shí)安特衛(wèi)普大學(xué)的學(xué)者通過(guò)文本挖掘(Text mining)技術(shù)對(duì)與宏觀經(jīng)濟(jì)復(fù)蘇相關(guān)的“經(jīng)濟(jì)政策不確定性指數(shù)”(Economic Policy Uncertainty Index,EPU)進(jìn)行改造。文本挖掘的對(duì)象是六種來(lái)源的佛蘭芒語(yǔ)新聞報(bào)道。改造后的EPU可用于分析和預(yù)測(cè)宏觀經(jīng)濟(jì)復(fù)蘇情況。
除了宏觀經(jīng)濟(jì)關(guān)聯(lián)指數(shù)的構(gòu)造和分析外,媒體文本數(shù)據(jù)還被廣泛應(yīng)用于對(duì)金融市場(chǎng)的相關(guān)變化進(jìn)行預(yù)測(cè)。倫敦大學(xué)學(xué)院的學(xué)者對(duì)路透新聞檔案、經(jīng)紀(jì)人報(bào)告、英格蘭銀行內(nèi)部市場(chǎng)評(píng)論等文本進(jìn)行挖掘,聚焦于那些有可能推動(dòng)金融市場(chǎng)行為變化的敘述和情緒。該學(xué)者發(fā)現(xiàn),當(dāng)興奮情緒很高而焦慮情緒很少時(shí),往往是金融危機(jī)發(fā)生的警示信號(hào)。法蘭克福大學(xué)的學(xué)者以臉書國(guó)民幸福指數(shù)(Facebook’s Gross National Happiness,GNH)為基礎(chǔ)構(gòu)造“投資信心指數(shù)”(Index of Investment Sentiment)。而GNH本身又是通過(guò)對(duì)臉書中的情感語(yǔ)匯進(jìn)行文本分析而構(gòu)造出來(lái)的。研究發(fā)現(xiàn),利用GNH能預(yù)測(cè)美國(guó)股票市場(chǎng)每天回報(bào)和交易量的變化情況;一個(gè)標(biāo)準(zhǔn)差的GNH指數(shù)增加大致能夠帶來(lái)次日股票指數(shù)11.23個(gè)點(diǎn)的上漲。
其他可挖掘在線數(shù)據(jù)十分豐富
除了搜索數(shù)據(jù)、網(wǎng)絡(luò)媒體數(shù)據(jù)外,在線銷售及支付數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)、郵政快遞數(shù)據(jù)等也被應(yīng)用于經(jīng)濟(jì)預(yù)測(cè)中。
美國(guó)麻省理工學(xué)院的學(xué)者領(lǐng)導(dǎo)了一個(gè)名為“十億價(jià)格”(Billion Prices Project,BPP)的研究項(xiàng)目。該項(xiàng)目與網(wǎng)絡(luò)零售商合作,每天下載成千上萬(wàn)種在線零售商品的實(shí)時(shí)價(jià)格,生成每天的價(jià)格指數(shù),可以實(shí)現(xiàn)以每天一次的頻率發(fā)布價(jià)格變動(dòng)和通貨膨脹數(shù)據(jù)。利用BPP在線價(jià)格指數(shù),可以較為準(zhǔn)確地判斷出未來(lái)一定時(shí)期特別是2—3個(gè)月時(shí)間內(nèi)的通貨膨脹變化趨勢(shì)。最值得一提的是,BPP在線價(jià)格指數(shù)在預(yù)測(cè)通脹趨勢(shì)變化拐點(diǎn)方面特別有效。
加拿大麥吉爾大學(xué)的學(xué)者利用包括銀行卡在內(nèi)的電子支付大數(shù)據(jù),通過(guò)多個(gè)模型的不同組合對(duì)加拿大GDP進(jìn)行即時(shí)預(yù)測(cè);并以此項(xiàng)工作為基礎(chǔ)構(gòu)建了一個(gè)全新的GDP月度數(shù)據(jù)庫(kù),預(yù)測(cè)精度顯著提高。
萬(wàn)國(guó)郵政聯(lián)盟(Universal Postal Union,UPU)的學(xué)者將國(guó)際郵政物流體系每天所產(chǎn)生的商品交換數(shù)據(jù),與每日的國(guó)際匯率變動(dòng)數(shù)據(jù)相結(jié)合,對(duì)國(guó)際間的電子商務(wù)套利行為進(jìn)行預(yù)測(cè)分析。這一嘗試表明,利用國(guó)際郵政物流數(shù)據(jù)有助于提高預(yù)測(cè)能力。
在澳大利亞,其官方統(tǒng)計(jì)部門正在采取相關(guān)措施,以便將特定來(lái)源的大數(shù)據(jù)納入到常規(guī)官方統(tǒng)計(jì)體系中。在統(tǒng)計(jì)實(shí)踐中,澳大利亞統(tǒng)計(jì)局已經(jīng)著手構(gòu)建基于大數(shù)據(jù)的統(tǒng)計(jì)推斷框架。一個(gè)典型的例子就是,利用遙感數(shù)據(jù)對(duì)澳大利亞的農(nóng)業(yè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和預(yù)測(cè)。
經(jīng)濟(jì)預(yù)測(cè)中大數(shù)據(jù)應(yīng)用的挑戰(zhàn)
近年來(lái)各國(guó)機(jī)構(gòu)和學(xué)者的探索表明,利用各種不同來(lái)源的大數(shù)據(jù)能夠有效提高經(jīng)濟(jì)預(yù)測(cè)的精度,在某些領(lǐng)域甚至能夠進(jìn)行拐點(diǎn)預(yù)測(cè)。不過(guò),在經(jīng)濟(jì)預(yù)測(cè)實(shí)踐中如何更加有效地利用大數(shù)據(jù)仍然面臨諸多挑戰(zhàn)。
第一,大數(shù)據(jù)的可獲得性將直接限制大數(shù)據(jù)在經(jīng)濟(jì)預(yù)測(cè)中的推廣應(yīng)用。無(wú)論是政府部門數(shù)據(jù)還是私人公司數(shù)據(jù),都不可能為經(jīng)濟(jì)預(yù)測(cè)者隨意使用;對(duì)于私人公司數(shù)據(jù)來(lái)說(shuō),通常需要通過(guò)簽訂合作協(xié)議并嚴(yán)格執(zhí)行保密條款才能獲取數(shù)據(jù);至于政府部門公共數(shù)據(jù),大多存在開放限制,往往需要通過(guò)機(jī)構(gòu)內(nèi)部人員才能獲取數(shù)據(jù)。
第二,來(lái)自搜索查詢、社交媒體等不同渠道的非結(jié)構(gòu)化原始數(shù)據(jù)既雜亂無(wú)章,又存在非常復(fù)雜的內(nèi)在關(guān)聯(lián),將其提煉并轉(zhuǎn)換為結(jié)構(gòu)化的有用信息需要有足夠的技巧,并且耗費(fèi)大量人力、物力和財(cái)力。
第三,充裕的數(shù)據(jù)信息還會(huì)帶來(lái)過(guò)度識(shí)別問題。以谷歌趨勢(shì)數(shù)據(jù)為例,谷歌每天產(chǎn)生的數(shù)十億個(gè)查詢記錄,即便利用谷歌趨勢(shì)進(jìn)行分類仍有數(shù)百個(gè)指數(shù);而每個(gè)指數(shù)即便從2004年1月開始,至今也最多不過(guò)一百多個(gè)序列。變量個(gè)數(shù)大于序列長(zhǎng)度,必然導(dǎo)致過(guò)度識(shí)別問題。
第四,同任何傳統(tǒng)經(jīng)濟(jì)預(yù)測(cè)一樣,大數(shù)據(jù)的應(yīng)用也無(wú)法解決“盧卡斯批評(píng)”問題。雖然大數(shù)據(jù)提高了預(yù)測(cè)精度,但如果預(yù)測(cè)模型被用于決定采用何種干預(yù)政策,那么最終的實(shí)際結(jié)果可能不會(huì)如模型所預(yù)測(cè),因?yàn)檎叩淖兓瘯?huì)影響到后續(xù)行為,而變量之間的關(guān)系恰恰是由相應(yīng)數(shù)據(jù)所反映。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10