
探秘“氣象大數(shù)據(jù)”
實(shí)況數(shù)據(jù)是氣象學(xué)科發(fā)展的最基礎(chǔ)數(shù)據(jù),也是模式數(shù)據(jù)產(chǎn)生的源頭。如果沒有實(shí)況數(shù)據(jù),計(jì)算機(jī)在運(yùn)算“模式數(shù)據(jù)”時(shí)就少了初始值,即使是回歸到?jīng)]有計(jì)算機(jī)的人工預(yù)報(bào)時(shí)代,少了實(shí)況數(shù)據(jù)也無法進(jìn)行天氣預(yù)報(bào)。
有人說,在“大數(shù)據(jù)時(shí)代”這個(gè)概念出現(xiàn)前,最名副其實(shí)的大數(shù)據(jù)應(yīng)該數(shù)氣象數(shù)據(jù)。氣象數(shù)據(jù)一貫以龐雜眾多數(shù)據(jù)量大而著稱,但無論氣象數(shù)據(jù)多么復(fù)雜,總體可以分為兩類:一類數(shù)據(jù)被稱為“實(shí)況數(shù)據(jù)”,一類被稱為“模式數(shù)據(jù)”。
簡單來說,實(shí)況數(shù)據(jù)屬于“一般過去時(shí)數(shù)據(jù)”,來自不同的觀測設(shè)備。采集實(shí)況數(shù)據(jù)的氣象站點(diǎn)遍布全球,觀測范圍從幾千米的高空到地面,觀測手段從高科技的雷達(dá)衛(wèi)星到最原始的人工觀測,這些數(shù)據(jù)的采集都是為了更真實(shí)地反映出地球外圍大氣圈的運(yùn)動(dòng)變化,而這些寶貴的數(shù)據(jù)也可以稱之為天氣預(yù)報(bào)之源。
模式數(shù)據(jù)與實(shí)況數(shù)據(jù)相比,可以說更簡單也可以說更復(fù)雜。簡單的是,這類數(shù)據(jù)僅由各類計(jì)算機(jī)的程序運(yùn)算生成,屬于預(yù)測未來的“一般將來時(shí)數(shù)據(jù)”;說它復(fù)雜則是因?yàn)橛?jì)算量非常龐大,運(yùn)用到的計(jì)算公式也異常復(fù)雜,為了更真實(shí)地模擬全球大氣的走向,運(yùn)算出的數(shù)據(jù)量也是十分驚人的!
下面,我們就一一來詳細(xì)揭秘這兩類“氣象大數(shù)據(jù)”。
天氣預(yù)報(bào)之源——實(shí)況數(shù)據(jù)
實(shí)況數(shù)據(jù)是氣象學(xué)科發(fā)展的最基礎(chǔ)數(shù)據(jù),也是模式數(shù)據(jù)產(chǎn)生的源頭。如果沒有實(shí)況數(shù)據(jù),計(jì)算機(jī)在運(yùn)算“模式數(shù)據(jù)”時(shí)就少了初始值,即使是回歸到?jīng)]有計(jì)算機(jī)的人工預(yù)報(bào)時(shí)代,少了實(shí)況數(shù)據(jù)也無法進(jìn)行天氣預(yù)報(bào)。
那么,實(shí)況數(shù)據(jù)是如何采集的呢?
很多年前,實(shí)況數(shù)據(jù)的采集和傳輸工作大部分都要靠人力完成。氣象觀測員每天要定時(shí)記錄百葉箱內(nèi)的溫度、濕度等,并通過打電話、發(fā)電報(bào)等方式將全國觀測數(shù)據(jù)進(jìn)行匯總。到今天為止,仍有很多發(fā)展中國家采用這種采集傳輸方式。
而隨著科技的發(fā)展,在計(jì)算機(jī)、電子和通信技術(shù)高度發(fā)達(dá)的今天,實(shí)況數(shù)據(jù)的采集和傳輸技術(shù)也有了天翻地覆的變化。所有實(shí)況數(shù)據(jù)的采集和傳輸幾乎都可以通過自動(dòng)化完成,僅有少數(shù)幾個(gè)項(xiàng)目需要人工參與,比如地面能見度觀測、施放探空氣球、衛(wèi)星軌道控制等。
目前,在氣象觀測站中溫度、濕度、氣壓、風(fēng)向、風(fēng)速等物理量均由電子控制的機(jī)械設(shè)備完成,這些觀測站配有嵌入式芯片,芯片上有一個(gè)精確的時(shí)鐘,可以準(zhǔn)時(shí)地周期性工作,例如在整點(diǎn)每隔5分鐘、10分鐘或1小時(shí)自動(dòng)采集周圍的環(huán)境數(shù)據(jù),并自動(dòng)將采集的氣象數(shù)據(jù)編碼為二進(jìn)制數(shù)據(jù)流,發(fā)送到數(shù)據(jù)庫中。截至2015年年底,我國大約有50000多個(gè)這樣的地面觀測站,所有觀測站均為自動(dòng)站。
由氣象觀測站觀測到的數(shù)據(jù)信息會(huì)首先在各省的氣象臺(tái)進(jìn)行匯總,然后通過“質(zhì)量控制”的環(huán)節(jié),去掉或訂正某些由于觀測設(shè)備故障造成的錯(cuò)誤數(shù)據(jù),質(zhì)量控制過程同樣也是由計(jì)算機(jī)程序自動(dòng)實(shí)現(xiàn)的。完成初步的質(zhì)量控制后,各省就利用FTP文件傳輸?shù)姆绞?,將該省該時(shí)刻全部觀測站點(diǎn)全部物理量數(shù)據(jù)打包為一個(gè)大文件,上傳到位于北京的國家氣象信息中心的通信臺(tái)。
世界其他國家的觀測數(shù)據(jù)的采集和傳輸也基本大同小異。除此以外,國與國之間也要進(jìn)行實(shí)況數(shù)據(jù)的交換,而且必須是無償交換。這是因?yàn)榇髿獾倪\(yùn)動(dòng)是全球性的,僅僅依靠本國的實(shí)況數(shù)據(jù)無法做出準(zhǔn)確的天氣預(yù)報(bào),因此,世界氣象組織規(guī)定各國之間必須無償提供氣象觀測資料。不過,有的時(shí)候出于信息保護(hù)或軍事安全的考慮,并不會(huì)對(duì)外廣播全部的觀測站點(diǎn)數(shù)據(jù)。那么,每個(gè)國家需要義務(wù)提供多少站點(diǎn)信息,又以什么標(biāo)準(zhǔn)交換,都交換哪些觀測項(xiàng)目,這些都由世界氣象組織(WMO)制定和協(xié)調(diào)。
氣象大數(shù)據(jù)之魂——模式數(shù)據(jù)
模式數(shù)據(jù)是由高性能計(jì)算機(jī)根據(jù)當(dāng)前天氣實(shí)況數(shù)據(jù)(包括地面、高空、衛(wèi)星等)通過物理方程計(jì)算得出的??梢院唵涡蜗蟮卣J(rèn)為,有這樣一套龐大的計(jì)算天氣預(yù)報(bào)的程序,輸入當(dāng)前已知的天氣現(xiàn)象,就可以輸出未來還沒有發(fā)生的天氣現(xiàn)象。計(jì)算出的天氣預(yù)報(bào)結(jié)果通常以規(guī)則的等經(jīng)緯度網(wǎng)格來表示,網(wǎng)格上的每一個(gè)點(diǎn)代表這個(gè)經(jīng)緯度上未來某時(shí)刻某個(gè)物理量(比如溫度)的數(shù)值。這就是現(xiàn)代天氣預(yù)報(bào)業(yè)務(wù)的基礎(chǔ)叫“數(shù)值模式預(yù)報(bào)”,而這個(gè)龐大的計(jì)算機(jī)程序就被稱作“模式系統(tǒng)”。
所有的發(fā)達(dá)國家都有自己的一套用來演算天氣情況的模式系統(tǒng),有的國家甚至還具有不止一套的系統(tǒng)。模式系統(tǒng)一般每天計(jì)算2~4次,通常在整點(diǎn)開始,利用整點(diǎn)前采集到的實(shí)況數(shù)據(jù)進(jìn)行計(jì)算,每次計(jì)算要生成大概幾百個(gè)物理量,包括從開始計(jì)算的時(shí)刻(又稱作“起報(bào)時(shí)刻”)至未來240小時(shí)時(shí)效(或更長)的一系列二進(jìn)制網(wǎng)格數(shù)據(jù),預(yù)報(bào)時(shí)效通常間隔3小時(shí)。目前氣象網(wǎng)格經(jīng)緯度間距一般在0.25度數(shù)量級(jí),一個(gè)網(wǎng)格文件大小通常在1~2兆,包含幾十萬個(gè)浮點(diǎn)數(shù)值。
當(dāng)模式的預(yù)報(bào)時(shí)效越長,時(shí)效間隔越密,網(wǎng)格點(diǎn)間距越小,網(wǎng)格點(diǎn)數(shù)值和未來實(shí)況差異越小,就證明該模式系統(tǒng)性能越好,該國氣象水平越發(fā)達(dá)。由于模式預(yù)測的物理量多,每天還要多次起報(bào),預(yù)報(bào)時(shí)效密集,模式種類繁多,模式數(shù)據(jù)必須至少存儲(chǔ)一星期等要求,因此,在氣象數(shù)據(jù)中,無論從數(shù)據(jù)個(gè)數(shù)還是數(shù)據(jù)存儲(chǔ)量來說,模式數(shù)據(jù)是比重最大的“大數(shù)據(jù)”。
和實(shí)況數(shù)據(jù)不同的是,具備模式系統(tǒng)的國家通常沒有義務(wù)向其他國家無償提供本國的模式數(shù)據(jù),或者最多無償提供經(jīng)過抽稀處理的粗粒度模式數(shù)據(jù)。想要得到發(fā)達(dá)國家的高質(zhì)量模式數(shù)據(jù),必須通過購買才可以。例如想要得到歐洲中心的0.125度細(xì)網(wǎng)格模式數(shù)據(jù),無論中國氣象局還是美國氣象局都必須向歐洲中心支付高昂的年費(fèi),才能每天獲得高質(zhì)量的歐洲中心模式數(shù)據(jù)。
需要注意的是,這里購買的僅僅是模式系統(tǒng)最終的“輸出”數(shù)據(jù),而不是模式系統(tǒng)本身。因?yàn)槟J较到y(tǒng)水平的好壞代表了一個(gè)國家氣象的硬實(shí)力,模式系統(tǒng)的源代碼(通常是大量的Fortran程序)更是頂級(jí)領(lǐng)域技術(shù)機(jī)密,屬于非賣品。
跨國模式數(shù)據(jù)也是利用FTP等方式進(jìn)行傳輸,傳輸?shù)母袷揭话闶遣捎檬澜鐨庀蠼M織制定的一種稱作GRIB編碼的文件規(guī)范,這種文件比較適合描述模式數(shù)據(jù)。
氣象數(shù)據(jù)如何傳輸
看完“實(shí)況數(shù)據(jù)”和“模式數(shù)據(jù)”的介紹,有沒有覺得氣象數(shù)據(jù)量大浩如煙海,這么多的數(shù)據(jù)都要一一傳送到預(yù)報(bào)員手里,又需要多長時(shí)間呢?一般來說,地面、高空、雷達(dá)觀測數(shù)據(jù)的采集和傳輸過程較快,從數(shù)據(jù)采集到可視化向預(yù)報(bào)員展示,通常幾分鐘時(shí)間就可以完成。也就是說,如果某地出現(xiàn)降雨天氣,只要儀器能觀測到,幾分鐘后位于氣象臺(tái)的預(yù)報(bào)員就會(huì)知道。
相對(duì)而言,靜止氣象衛(wèi)星觀測的時(shí)間稍長,中國的風(fēng)云衛(wèi)星一般需要20多分鐘才能完成全球掃描,大概半小時(shí)后,預(yù)報(bào)員才能在電腦上看到衛(wèi)星云圖。
這里面模式數(shù)據(jù)傳輸最慢。以上午08時(shí)起報(bào)的歐洲中心模式系統(tǒng)為例,首先計(jì)算未來3小時(shí)(上午11時(shí))的所有物理量,打包為1個(gè)GRIB文件并向其他國家傳輸,然后再計(jì)算未來6小時(shí)的數(shù)據(jù),打包傳輸,直到最后完成10天后上午08時(shí)的預(yù)報(bào)數(shù)據(jù)計(jì)算并傳輸,每個(gè)預(yù)報(bào)時(shí)效的GRIB文件大概100多兆,計(jì)算一個(gè)預(yù)報(bào)時(shí)效大概需要幾分鐘時(shí)間,模式系統(tǒng)啟動(dòng)也需要很長時(shí)間,這樣北京收到歐洲中心在早08時(shí)起報(bào)的第1個(gè)GRIB文件大概要到下午1時(shí)45分,完成最后一個(gè)240小時(shí)預(yù)報(bào)時(shí)效GRIB文件的接收要到下午3時(shí)。這樣,如果要做早08時(shí)到下午3時(shí)的天氣預(yù)報(bào),只能使用前1個(gè)起報(bào)時(shí)刻的模式數(shù)據(jù),比如前一天晚20時(shí)的模式數(shù)據(jù)。
在我國,國家氣象信息中心通信臺(tái)承擔(dān)著數(shù)據(jù)傳輸和分發(fā)的樞紐作用。接收的數(shù)據(jù)包含來自各省的地面、高空、雷達(dá)數(shù)據(jù)、衛(wèi)星數(shù)據(jù)、中國模式系統(tǒng)輸出結(jié)果的數(shù)據(jù)以及其他國家的觀測數(shù)據(jù)和模式數(shù)據(jù)。同時(shí),還承擔(dān)數(shù)據(jù)的發(fā)送功能,每天將各種觀測數(shù)據(jù)和模式數(shù)據(jù)通過地面網(wǎng)絡(luò)或通信衛(wèi)星收發(fā)系統(tǒng)傳送給31個(gè)省市區(qū)氣象臺(tái)和其他國家。
省一級(jí)的氣象臺(tái)只負(fù)責(zé)將本省的觀測數(shù)據(jù)發(fā)送至國家氣象信息中心,不進(jìn)行其他數(shù)據(jù)的傳送,同時(shí)接收來自國家氣象信息中心分發(fā)的其他省的數(shù)據(jù)或各國模式系統(tǒng)數(shù)據(jù)。一般來說,由于國家到省級(jí)的網(wǎng)絡(luò)傳輸需要較長時(shí)間,因此,國家級(jí)預(yù)報(bào)員在時(shí)間上將先于省級(jí)預(yù)報(bào)員查看到最新的氣象數(shù)據(jù)。
預(yù)報(bào)員如何接收氣象數(shù)據(jù)
解釋完了數(shù)據(jù)是怎么進(jìn)行傳輸和接收的,最后一個(gè)問題,一個(gè)個(gè)數(shù)據(jù)又是如何出現(xiàn)在預(yù)報(bào)員的計(jì)算機(jī)中?這其實(shí)是一套先進(jìn)、復(fù)雜的大數(shù)據(jù)處理系統(tǒng)。
數(shù)據(jù)到達(dá)通信臺(tái)后,首先兵分兩路,地面、高空站點(diǎn)實(shí)況報(bào)文數(shù)據(jù)被轉(zhuǎn)發(fā)至解報(bào)計(jì)算機(jī),完成對(duì)于BUFR編碼的解碼,提取出報(bào)文中的站號(hào)、物理量值等信息,寫入一個(gè)關(guān)系型數(shù)據(jù)庫中作為緩存,然后通過每隔幾分鐘的定時(shí)作業(yè),將同一觀測時(shí)刻全部站點(diǎn)的物理量信息從關(guān)系型數(shù)據(jù)庫中提取出來,制作為一個(gè)全國全部站點(diǎn)觀測文件,寫入到一個(gè)專供預(yù)報(bào)員客戶端軟件訪問的高速存儲(chǔ)服務(wù)器中。
另外一路大數(shù)據(jù)包括模式數(shù)據(jù)、衛(wèi)星、雷達(dá)數(shù)據(jù),這一類數(shù)據(jù)本身不是報(bào)文,不需要像站點(diǎn)實(shí)況數(shù)據(jù)那樣先拼接再寫入的過程,因此,通信臺(tái)直接將這些數(shù)據(jù)發(fā)送給高速解析服務(wù)器,完成類似GRIB解碼、衛(wèi)星通道拆分等操作,解碼后的結(jié)果一般是一些更小更多的文件,直接寫入到和存儲(chǔ)全國站點(diǎn)觀測文件相同的高速存儲(chǔ)服務(wù)器中,供預(yù)報(bào)員客戶端軟件訪問。所有數(shù)據(jù)的解報(bào)、解碼時(shí)間一般幾秒鐘即可完成。
中國的預(yù)報(bào)客戶端稱作“MICAPS”(全稱氣象信息綜合分析處理系統(tǒng)),主要功能是將高速存儲(chǔ)服務(wù)器中的所有氣象數(shù)據(jù)進(jìn)行可視化展示,并提供便捷的瀏覽和交互操作,預(yù)報(bào)員利用顯示出來的模式數(shù)據(jù)和所有實(shí)況數(shù)據(jù),結(jié)合自己的分析,在MICAPS上繪制出天氣預(yù)報(bào)的最終結(jié)果,最后將預(yù)報(bào)結(jié)果出圖和撰寫成文字發(fā)送給發(fā)布部門,比如網(wǎng)站、報(bào)紙、電視臺(tái)等。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11