
R語言天氣可視化應(yīng)用
在很多人看來,R語言還只是個玩具,完全不具備企業(yè)級應(yīng)用的能力。說這些話的人,根本就不了解R語言,更不清楚如何做企業(yè)級應(yīng)用開發(fā)。從我最早接觸R語言時,就把R做為可視化引擎嵌入到了曬粉絲的微博應(yīng)用中;后來又開發(fā)了數(shù)據(jù)挖掘算法競賽網(wǎng)站,并把R語言做為算法引擎,并支持在線編程及運行;我做的第三個R語言應(yīng)用就是本文要給大家分享的每日中國天氣微博應(yīng)用,這次同樣是把R做為可視化引擎,并讓R完成爬蟲、XML文檔解析及數(shù)據(jù)處理等的任務(wù);當然,我還實現(xiàn)了第四個、第五個、第六個以R為核心的應(yīng)用,都是量化投資方面的,會在下一本書《R的極客理想-量化投資篇》再介紹給大家。
從我的使用經(jīng)驗來看,R語言已經(jīng)具備了企業(yè)級應(yīng)用的能力,但我并不是要用R語言完成所有編程任務(wù)。在我的項目環(huán)境中,大都是多種編程語言配合使用的,只有發(fā)揮各自語言的特性優(yōu)勢,才是未來的發(fā)展方向。
本文所介紹的每日中國天氣微博應(yīng)用開發(fā),將分為3篇介紹R語言和PHP語言的混合編程,第一篇為R語言功能實現(xiàn),第二篇為R包開發(fā),第三篇為用PHP構(gòu)建微博應(yīng)用。本文是第一篇。
目錄
項目介紹
系統(tǒng)架構(gòu)設(shè)計
R語言程序現(xiàn)實
1. 項目介紹
談到多語言混編,同如在計算機領(lǐng)域跨學科一樣,是我所一直倡導一種工作模式。當編程語言百花齊放,各種細分市場的小眾語言如雨后春筍般地成長起來,比起通用型編程語言來說,這些小眾語言在特定的領(lǐng)域中有著非常明顯的優(yōu)勢。 比如統(tǒng)計應(yīng)用,如果用Java寫個邏輯回歸程序感覺深不見底,而用R語言實現(xiàn)邏輯回歸就是個很平常的一件事情。 再比如做一個Web網(wǎng)站,用PHP或Nodejs實現(xiàn)輕而易舉,如果用Java做不僅代碼量大,而且程序復雜。 所以,對于一個應(yīng)用來說,一種通用的語言并不一定是最好的解決方案,如果能實現(xiàn)多種語言的結(jié)合,那么你做出來的應(yīng)用可以很酷,很不一樣!
對于本文要介紹的 每日中國天氣 這個新浪微博應(yīng)用,就是一種多語言混編的實現(xiàn)。
項目介紹
這個項目的出發(fā)點很簡單,就是通過可視化技術(shù),展示中國每個省份的天氣情況,給準備旅游的朋友,提供一種出行的提示。
要做實現(xiàn)這個應(yīng)用,我們首先要列出,要實現(xiàn)哪些功能,會遇到哪些問題等。
天氣數(shù)據(jù):數(shù)據(jù)從哪里找到,如何下載,如何存儲。
定時任務(wù):天氣數(shù)據(jù)需要每日更新,圖片需要每日新生成。
地圖和天氣可視化:要把中國行政區(qū)圖和天氣數(shù)據(jù)結(jié)合在一起畫圖,讓用戶一眼就能看明白。
Web展示:通過可視化技術(shù),我們生成的只是一張靜態(tài)圖片,如何發(fā)布到Web端進行展示。
微博:通過結(jié)合新浪微博,讓更多的用戶看到并使用這個應(yīng)用。
用戶交互:用戶可以查看不同日期、不同類型的圖片,用戶還可以通過微博分享。
雖然是個很小的應(yīng)用,但五臟俱全,我們也需要完整的思考,如何才能實現(xiàn)這個應(yīng)用呢!
2. 系統(tǒng)架構(gòu)設(shè)計
從上面的功能描述中,單獨使用一種語言也可以實現(xiàn)的。 如果單獨用PHP開發(fā),做一個Web網(wǎng)站非常容易,連接新浪微博也有現(xiàn)成的SDK可以調(diào)用,爬取數(shù)據(jù)及存儲也不麻煩,那么如何實現(xiàn)地圖和天氣數(shù)據(jù)的可視化,似乎就是卡在這里了。 如果單獨用R開發(fā),爬取數(shù)據(jù)及存儲同樣很容易實現(xiàn),地圖和天氣數(shù)據(jù)的可視化也是很方便就能畫出來,但是用R做Web網(wǎng)站,那就會遇到很大的瓶頸了,因為R是單線程同步的計算模型,Web應(yīng)用的高并發(fā)特點,會直接讓R程序崩潰的。 所以,綜合上面的問題,如果R語言和PHP語言能結(jié)合在一起使用,不僅能避開每種語言不擅長的地方,還能在擅長的領(lǐng)域發(fā)揮出每種語言的特性,我們將通過多語言的混編技術(shù)做出很不一樣的應(yīng)用來。
為了實現(xiàn)應(yīng)用的功能需求,我們要設(shè)計一套系統(tǒng)架構(gòu)。
系統(tǒng)架構(gòu)解釋:
通過定時器啟動爬蟲程序,到Y(jié)ahoo的天氣數(shù)據(jù)源下載數(shù)據(jù)。
爬蟲下載數(shù)據(jù)到本地服務(wù)器進行解析,存儲應(yīng)用相關(guān)的數(shù)據(jù)到CSV文件。
可視化程序,讀入天氣數(shù)據(jù)及地圖數(shù)據(jù),生成靜態(tài)的圖片作為可視化輸出。
最終用戶通過新浪微博,加載Web應(yīng)用,看到了可視化生成的靜態(tài)圖片。
最終用戶通過新浪微博分享了這個應(yīng)用,讓更多的人看到這個應(yīng)用。
下面按照語言的優(yōu)勢,把應(yīng)用架構(gòu)以語言的特性來劃分,讓R語言實現(xiàn)爬蟲、處理數(shù)據(jù)和可視化,讓PHP完成Web開發(fā)、新浪API接入和用戶交互。
由于我們這個應(yīng)用,不需要讓R和PHP直接進行通信,那么復雜度就會變得小很多了,像我之前做的曬粉絲應(yīng)用,是3種語言的結(jié)合包括了R, PHP, Java,通過Java實現(xiàn)中間程序的調(diào)度,讓R和PHP能夠?qū)崿F(xiàn)通信。
我們通過語言的劃分,就可以揚長避短,讓每種語言在最擅長的領(lǐng)域,完成最擅長的事情。
對于后臺技術(shù)應(yīng)用,定時器可以用Linux系統(tǒng)的CRON實現(xiàn);然后用R語言程序來爬取數(shù)據(jù),通過RCurl包來完成;爬取后的數(shù)據(jù)為XML格式,再通過R語言用XML包進行解析,以CSV格式進行本地存儲;接下來,再用R語言處理數(shù)據(jù),加載地圖包ggmap、mapdata、maptools,最后配合plot()函數(shù)實現(xiàn)圖片的輸出,保存在本地服務(wù)器上。
對于前端的PHP應(yīng)用來說,用PHP做一個Web網(wǎng)站很簡單,使用YII快速開發(fā)框架;用PHP的新浪微博SDK進行API操作,實現(xiàn)新浪登陸,新浪分享等功能;最后Nginx + Spawn構(gòu)建出PHP運行時環(huán)境,讓Nginx完成負載均衡和圖片加載,并配合PHP的訪問規(guī)則,實現(xiàn)功能的切換。
合理的架構(gòu)設(shè)計加上適應(yīng)的語言的分工,就能輕松實現(xiàn)了 每日中國天氣 這樣的一個微博應(yīng)用。其實,我們可以用這種多語言混搭的方式,創(chuàng)建出各種創(chuàng)新型的網(wǎng)站應(yīng)用,但前提是先能掌握多種語言。
這里我想再多說一句,通常我認識的程序員,都是在自己的技術(shù)領(lǐng)域中無限暢快,一旦他們掌握了一種語言的核心技術(shù),并有了一些開發(fā)經(jīng)驗后,往往不愿意再去學第二種語言。 對這些人來說,總覺得自己就是世界的中心,自己有能力實現(xiàn)的所有的功能。這些也都是有理想的程序員,只不過他們進入了一個誤區(qū),被現(xiàn)有的技術(shù)給迷住了,看不到、也不愿意看到外面的世界已經(jīng)變了。我曾經(jīng)就是這樣的!
我承認Java是一種無所不能的編程語言,但是如果你所有程序都用Java實現(xiàn),難道不覺得又費時又費力嗎?通用性越強,反而專有領(lǐng)域的應(yīng)用性就越差。這也是我從Java單一的技術(shù)路線走出來的原因。其實,在精通一門語言后,再去學習另外一門新的語言,就不是那么難了。但如果只是沉醉于已掌握的技術(shù),很快就會被一代新人,一代新工具所超越的。
3. R語言程序現(xiàn)實
下面就開始介紹R語言的部分程序開發(fā),在寫代碼之前,我們需要先梳理開發(fā)流程,做一下程序設(shè)計,R語言都需要實現(xiàn)哪些功能,用到哪些第三方R包。
我用一幅圖來說明程序之間的調(diào)用關(guān)系,R語言的程序?qū)崿F(xiàn)一共包括了6個部分,爬蟲程序、本地存儲,地圖加載、數(shù)據(jù)可視化處理、生成靜態(tài)圖、生成可交互的靜態(tài)圖。
上圖中,分別標出了每個步驟用的到R包或者功能函數(shù),同時我們可以按照這個流程來定義功能函數(shù),這樣我們就把整個應(yīng)用程序都規(guī)劃好,最后再對應(yīng)的寫代碼就不難了。
3.1 爬蟲部分
對于爬蟲部分來說,就是定時下載每個城市的或地區(qū)的天氣數(shù)據(jù),并解析數(shù)據(jù),只保留我們需要的字段,并以CSV的格式存儲?;ヂ?lián)網(wǎng)上有很多免費公開的天氣數(shù)據(jù)源,對我來說,最方便的數(shù)據(jù)源有2個,一個是Yahoo的天氣數(shù)據(jù),另一個Google的天氣數(shù)據(jù),但由于Google的API從中國大陸會經(jīng)常會訪問不到,所以我在這里選擇Yahoo的天氣數(shù)據(jù)源進行訪問。
yahoo天氣數(shù)據(jù)源的訪問地址,如下所示。
http://weather.yahooapis.com/forecastrss?w=WOEID
其中WOEID代表城市對應(yīng)的代碼,如果想查看北京的天氣數(shù)據(jù),北京對應(yīng)的WOEID為2151330,可以訪問用瀏覽器訪問 http://weather.yahooapis.com/forecastrss?w=2151330 。
我們通過瀏覽器打開地址,就可以看到這個數(shù)據(jù),數(shù)據(jù)是以XML格式進行發(fā)布的。
我們要解析這個XML文件,從中找到我們需要數(shù)據(jù)進行提鄧。在R語言中,通過RCurl包實現(xiàn)HTTP的網(wǎng)絡(luò)訪問,抓取到整個的XML文檔數(shù)據(jù),然后通過XML包解析XML文檔的DOM樹,就能找到我們需要的數(shù)據(jù)了。
本文的系統(tǒng)環(huán)境
Win7 64bit
R: 3.1.1 x86_64-w64-mingw32/x64 (64-bit)
當我們把業(yè)務(wù)邏輯和技術(shù)實現(xiàn)都想清楚了,就可以動手寫代碼了,只十幾行代碼就能完成爬蟲和XML文檔解析的功能。
> library(RCurl) # 加載類庫
> library(XML)
>
> getWeather<-function (x){
+ url<-paste('http://weather.yahooapis.com/forecastrss?w=',x,'&u=c',sep="") # yahoo的數(shù)據(jù)源地址
+ doc = xmlTreeParse(getURL(url),useInternal = TRUE) # 解析XML文檔
+
+ ans<-getNodeSet(doc, "http://yweather:atmosphere")
+ humidity<-as.numeric(sapply(ans, xmlGetAttr, "humidity")) # 溫度
+ visibility<-as.numeric(sapply(ans, xmlGetAttr, "visibility")) # 能見度
+ pressure<-as.numeric(sapply(ans, xmlGetAttr, "pressure")) # 氣壓
+ rising<-as.numeric(sapply(ans, xmlGetAttr, "rising")) # 氣壓變動
+
+ ans<-getNodeSet(doc, "http://item/yweather:condition")
+ code<-sapply(ans, xmlGetAttr, "code") # 天氣情況
+
+ ans<-getNodeSet(doc, "http://item/yweather:forecast[1]")
+ low<-as.numeric(sapply(ans, xmlGetAttr, "low")) # 最高氣溫
+ high<-as.numeric(sapply(ans, xmlGetAttr, "high")) # 最低氣溫
+
+ print(paste(x,'==>',low,high,code,humidity,visibility,pressure,rising))
+ cbind(low,high,code,humidity,visibility,pressure,rising) # 以data.frame格式返回
+ }
運行程序,查看返回結(jié)果。
> w<-getWeather(2151330) # 執(zhí)行爬蟲程序
[1] "2151330 ==> 9 13 21 59 4.1 1016.4 0"
> w # 返回的結(jié)果集
low high code humidity visibility pressure rising
[1,] "9" "13" "21" "59" "4.1" "1016.4" "0"
對于功能需求來說,一個城市只保存7個字段就行了,其他的XML文檔的數(shù)據(jù)可以全部過濾掉不管。
3.2 本地存儲
我們通過爬蟲下載并過濾后的數(shù)據(jù),已經(jīng)是data.frame的格式了,通過write.csv()函數(shù)就把這些數(shù)據(jù)輸出到本地文件系統(tǒng)中保存起來,做為數(shù)據(jù)的備份。
我們在處理本地存儲的過程中,除了要生成一個CSV文件,還包括了 文件命名,把多個城市的數(shù)據(jù)合并到一個文件存儲的問題。下面我們需要再定義兩個函數(shù),filename()函數(shù)用于新生成文件的命名,loadDate()函數(shù)用于多個城市數(shù)據(jù)的加載,合并在一個文件中保存。
城市列表應(yīng)該是我們需要提單準備好的,我這里只選取了中國的34個城市作為我們要獲得的城市天氣數(shù)據(jù)的信息。如果想爬取更多的城市天氣數(shù)據(jù)的信息,那么補充這個列表就行了。
城市列表數(shù)據(jù)文件WOEID.csv。
beijing,2151330,北京,北京市,116.4666667,39.9
shanghai,2151849,上海,上海市,121.4833333,31.23333333
tianjin,2159908,天津,天津市,117.1833333,39.15
chongqing,20070171,重慶,重慶市,106.5333333,29.53333333
harbin,2141166,哈爾濱,黑龍江省,126.6833333,45.75
changchun,2137321,長春,吉林省,125.3166667,43.86666667
shenyang,2148332,沈陽,遼寧省,123.4,41.83333333
hohhot,2149760,呼和浩特,內(nèi)蒙古自治區(qū),111.8,40.81666667
shijiazhuang,2171287,石家莊,河北省,114.4666667,38.03333333
wulumuqi,26198317,烏魯木齊,新疆維吾爾自治區(qū),87.6,43.8
lanzhou,2145605,蘭州,甘肅省,103.8166667,36.05
xining,2138941,西寧,青海省,101.75,36.63333333
xian,2157249,西安,陜西省,108.9,34.26666667
yinchuan,2150551,銀川,寧夏回族自治區(qū),106.2666667,38.33333333
zhengzhou,2172736,鄭州,河南省,113.7,34.8
jinan,2168327,濟南,山東省,117,36.63333333
taiyuan,2154547,太原,山西省,112.5666667,37.86666667
hefei,2127866,合肥,安徽省,117.3,31.85
wuhan,2163866,武漢,湖北省,114.35,30.61666667
changsha,26198213,長沙,湖南省,113,28.18333333
nanjing,2137081,南京,江蘇省,118.8333333,32.03333333
chengdu,2158433,成都,四川省,104.0833333,30.65
guiyang,2146703,貴陽,貴州省,106.7,26.58333333
kunming,2160693,昆明,云南省,102.6833333,25
nanning,2166473,南寧,廣西壯族自治區(qū),108.3333333,22.8
lasa,26198235,拉薩,西藏自治區(qū),91.16666667,29.66666667
hangzhou,2132574,杭州,浙江省,120.15,30.23333333
nanchang,26198151,南昌,江西省,115.8666667,28.68333333
guangzhou,2161838,廣州,廣東省,113.25,23.13333333
fuzhou,2139963,福州,福建省,119.3,26.08333333
taipei,2306179,臺北,臺灣省,121.5166667,25.05
haikou,2162779,海口,海南省,110.3333333,20.03333333
hongkong,24865698,香港,香港特別行政區(qū),114.1666667,22.3
macau,20070017,澳門,澳門特別行政區(qū),113.5,22.2
字段解釋:
第一列,城市的英文名
第二列,WOEID代碼
第三列,城市的中文名
第四列,城市所在的省中文名
第五列,經(jīng)度(默認為東經(jīng))
第六列,緯度(默認為北緯)
用于生成數(shù)據(jù)文件的R語言的函數(shù)實現(xiàn)。
> filename<-function(date=Sys.time()){ # 文件根據(jù)日期來命名
+ paste(format(date, "%Y%m%d"),".csv",sep="")
+ }
> loadDate<-function(date){ # 讀取城市列表,調(diào)用爬蟲函數(shù),合并數(shù)據(jù)保存到一個文件中。
+ print(paste('Date','==>',date))
+ city<-read.csv(file="WOEID.csv",header=FALSE,fileEncoding="utf-8", encoding="utf-8") # 加載城市列表
+ names(city)<-c("en","woeid","zh",'prov','long','lat')
+ city<-city[-nrow(city),]
+
+ wdata<-do.call(rbind, lapply(city$woeid,getWeather))
+ w<-cbind(city,wdata)
+ write.csv(w,file=filename(date),row.names=FALSE,fileEncoding="utf-8")
+ }
運行程序loadDate()的函數(shù),程序會根據(jù)城市列表的數(shù)據(jù),調(diào)用getWeather()函數(shù)自動爬取我們定義的所有城市的天氣數(shù)據(jù)。
> date=Sys.time();date # 選擇日期
[1] "2014-10-01 13:01:08 CST"
> loadDate(date) # 爬取數(shù)據(jù)
[1] "Date ==> 2014-10-01 13:01:08"
[1] "2151330 ==> 9 13 21 59 4.1 1016.4 0"
[1] "2151849 ==> 18 23 30 57 9.99 1015.92 0"
[1] "2159908 ==> 12 22 30 58 9.99 1017 0"
[1] "20070171 ==> 16 22 26 79 NA 1013.6 0"
[1] "2141166 ==> 2 13 34 29 9.99 1015.92 0"
[1] "2137321 ==> 3 6 11 81 9.99 1015.92 1"
[1] "2148332 ==> 7 16 34 27 9.99 1015.92 0"
[1] "2149760 ==> 4 19 30 59 9.99 982.05 0"
[1] "2171287 ==> 12 14 11 94 2.49 982.05 2"
[1] "26198317 ==> 12 23 34 52 9.99 1015.92 2"
[1] "2145605 ==> 6 17 20 82 8 812.73 0"
[1] "2138941 ==> 3 21 32 63 9 745.01 0"
[1] "2157249 ==> 13 23 11 91 2.99 1017.9 0"
[1] "2150551 ==> 8 22 28 60 7 1016.8 0"
[1] "2172736 ==> 13 19 32 52 8 1015.92 0"
[1] "2168327 ==> 14 22 32 49 NA 1017 0"
[1] "2154547 ==> 9 18 20 88 1.59 982.05 2"
[1] "2127866 ==> 17 23 34 60 9.99 1015.92 2"
[1] "2163866 ==> 19 26 28 78 6 982.05 2"
[1] "26198213 ==> 21 28 28 65 9.99 982.05 2"
[1] "2137081 ==> 15 23 34 57 9.99 1015.92 2"
[1] "2158433 ==> 19 27 20 69 4.01 1015.92 0"
[1] "2146703 ==> 18 26 28 73 9.99 1015.92 0"
[1] "2160693 ==> 13 23 28 64 9.99 1015.92 2"
[1] "2166473 ==> 24 32 30 62 9.99 982.05 0"
[1] "26198235 ==> -1 15 30 50 NA 643.41 0"
[1] "2132574 ==> 16 23 30 53 9.99 1015.92 0"
[1] "26198151 ==> 21 27 20 75 7 1016.4 0"
[1] "2161838 ==> 25 31 28 58 8 982.05 2"
[1] "2139963 ==> 21 29 28 65 9.99 982.05 0"
[1] "2306179 ==> 24 28 28 70 9.99 982.05 0"
[1] "2162779 ==> 24 31 30 58 9.99 982.05 0"
[1] "24865698 ==> 26 30 30 59 9.99 982.05 2"
程序運行完成后,會在當前目錄生成一個名字為20141001.csv文件。打開20141001.csv文件,這個文件就是接下來用于生成可視化圖片的基礎(chǔ)數(shù)據(jù)了。
"en","woeid","zh","prov","long","lat","low","high","code","humidity","visibility","pressure","rising"
"beijing",2151330,"北京","北京市",116.4666667,39.9,"9","13","21","59","4.1","1016.4","0"
"shanghai",2151849,"上海","上海市",121.4833333,31.23333333,"18","23","30","57","9.99","1015.92","0"
"tianjin",2159908,"天津","天津市",117.1833333,39.15,"12","22","30","58","9.99","1017","0"
"chongqing",20070171,"重慶","重慶市",106.5333333,29.53333333,"16","22","26","79",NA,"1013.6","0"
"harbin",2141166,"哈爾濱","黑龍江省",126.6833333,45.75,"2","13","34","29","9.99","1015.92","0"
"changchun",2137321,"長春","吉林省",125.3166667,43.86666667,"3","6","11","81","9.99","1015.92","1"
"shenyang",2148332,"沈陽","遼寧省",123.4,41.83333333,"7","16","34","27","9.99","1015.92","0"
"hohhot",2149760,"呼和浩特","內(nèi)蒙古自治區(qū)",111.8,40.81666667,"4","19","30","59","9.99","982.05","0"
"shijiazhuang",2171287,"石家莊","河北省",114.4666667,38.03333333,"12","14","11","94","2.49","982.05","2"
"wulumuqi",26198317,"烏魯木齊","新疆維吾爾自治區(qū)",87.6,43.8,"12","23","34","52","9.99","1015.92","2"
"lanzhou",2145605,"蘭州","甘肅省",103.8166667,36.05,"6","17","20","82","8","812.73","0"
"xining",2138941,"西寧","青海省",101.75,36.63333333,"3","21","32","63","9","745.01","0"
"xian",2157249,"西安","陜西省",108.9,34.26666667,"13","23","11","91","2.99","1017.9","0"
"yinchuan",2150551,"銀川","寧夏回族自治區(qū)",106.2666667,38.33333333,"8","22","28","60","7","1016.8","0"
"zhengzhou",2172736,"鄭州","河南省",113.7,34.8,"13","19","32","52","8","1015.92","0"
"jinan",2168327,"濟南","山東省",117,36.63333333,"14","22","32","49",NA,"1017","0"
"taiyuan",2154547,"太原","山西省",112.5666667,37.86666667,"9","18","20","88","1.59","982.05","2"
"hefei",2127866,"合肥","安徽省",117.3,31.85,"17","23","34","60","9.99","1015.92","2"
"wuhan",2163866,"武漢","湖北省",114.35,30.61666667,"19","26","28","78","6","982.05","2"
"changsha",26198213,"長沙","湖南省",113,28.18333333,"21","28","28","65","9.99","982.05","2"
"nanjing",2137081,"南京","江蘇省",118.8333333,32.03333333,"15","23","34","57","9.99","1015.92","2"
"chengdu",2158433,"成都","四川省",104.0833333,30.65,"19","27","20","69","4.01","1015.92","0"
"guiyang",2146703,"貴陽","貴州省",106.7,26.58333333,"18","26","28","73","9.99","1015.92","0"
"kunming",2160693,"昆明","云南省",102.6833333,25,"13","23","28","64","9.99","1015.92","2"
"nanning",2166473,"南寧","廣西壯族自治區(qū)",108.3333333,22.8,"24","32","30","62","9.99","982.05","0"
"lasa",26198235,"拉薩","西藏自治區(qū)",91.16666667,29.66666667,"-1","15","30","50",NA,"643.41","0"
"hangzhou",2132574,"杭州","浙江省",120.15,30.23333333,"16","23","30","53","9.99","1015.92","0"
"nanchang",26198151,"南昌","江西省",115.8666667,28.68333333,"21","27","20","75","7","1016.4","0"
"guangzhou",2161838,"廣州","廣東省",113.25,23.13333333,"25","31","28","58","8","982.05","2"
"fuzhou",2139963,"福州","福建省",119.3,26.08333333,"21","29","28","65","9.99","982.05","0"
"taipei",2306179,"臺北","臺灣省",121.5166667,25.05,"24","28","28","70","9.99","982.05","0"
"haikou",2162779,"???,"海南省",110.3333333,20.03333333,"24","31","30","58","9.99","982.05","0"
"hongkong",24865698,"香港","香港特別行政區(qū)",114.1666667,22.3,"26","30","30","59","9.99","982.05","2"
數(shù)據(jù)一共有10列,字段解釋:
en,城市英文名
woeid, Yahoo天氣API定義的WOEID,用于匹配城市
zh,城市中文名
prov,城市所在省的中文名
long,經(jīng)度(中國處于東經(jīng),不區(qū)別東經(jīng)西經(jīng))
lat,緯度(中國處于北緯,不區(qū)別南緯北緯)
low,最低溫度
high,最高溫度
code,天氣概括代碼
humidity,濕度
visibility,能見度
pressure,大氣壓
rising,氣壓變動
這樣數(shù)據(jù)就準備好了,那么接下來就是把天氣數(shù)據(jù)對應(yīng)到中國行政區(qū)地圖上了。
3.3 中國地國加載
R語言通過第三方的地圖R包,可以很方便的實現(xiàn)基于地圖的可視化或基于地理信息的數(shù)據(jù)處理。那么R語言是如何做到的呢,是通過maps, mapdata, maptools這3個包合作完成的。
我們調(diào)用maptools包的readShapePoly()函數(shù),加載中國行政區(qū)地圖的數(shù)據(jù)信息,保存在map的變量中,直接用plot()函數(shù)就可以看到可視化的效果了。地圖數(shù)據(jù)是我提前下載好的,保存放在mapdata目錄中,一共全部3個文件bou2_4p.dbf,bou2_4p.shp和bou2_4p.shx。
> library(maps)
> library(mapdata)
> library(maptools)
> map<-readShapePoly('mapdata/bou2_4p.shp') # 加載中國行政區(qū)地圖數(shù)據(jù)
> plot(map) # 畫出中國行政區(qū)圖
是不是很神奇,2行就畫出是中國行政區(qū)地圖的輪廓,我們再繼續(xù)來分析map這個變量。先檢查一下的map的類型,發(fā)現(xiàn)是sp包中定義的SpatialPolygonsDataFrame類型的。
> class(map) # 查看map對象類型
[1] "SpatialPolygonsDataFrame"
attr(,"package")
[1] "sp"
SpatialPolygonsDataFrame類型我們并不熟悉,再用pryr包的otype查檢一下,面向?qū)ο笙到y(tǒng)的類型。
> library(pryr)
> otype(map) # 發(fā)現(xiàn)是S4類型的data.frame
[1] "S4"
R語言基于S4的面向?qū)ο缶幊?http://blog.fens.me/r-class-s4/ 一文,我們已經(jīng)掌握了S4類型的基礎(chǔ)知識,在知道m(xù)ap是一個S4類型的實例后,大概就能猜出這個對象如何使用了。另外從命名上看,SpatialPolygonsDataFrame類型,應(yīng)該是用data.frame存儲了SpatialPolygons的類型的數(shù)據(jù)。 先通過length()函數(shù)和names()函數(shù),從data.frame的角度查看一下map對象,包括7列925行。
> length(map) # 一共有925條記錄
[1] 925
> names(map) # data.frame包括有7列
[1] "AREA" "PERIMETER" "BOU2_4M_" "BOU2_4M_ID" "ADCODE93"
[6] "ADCODE99" "NAME"
再通過str()函數(shù)查看map對象第一行數(shù)據(jù)的靜態(tài)結(jié)構(gòu)。
#省略
從這兩個維度的觀察,我們基本清楚map的結(jié)構(gòu),map里每一行是一個SpatialPolygonsDataFrame對象,包括5個屬性,用于存儲地圖數(shù)據(jù)信息。取第一行數(shù)據(jù)data屬性,查看結(jié)果,發(fā)現(xiàn)是黑龍江省的行政區(qū)地圖數(shù)據(jù)。
> map[1,]@data
AREA PERIMETER BOU2_4M_ BOU2_4M_ID ADCODE93 ADCODE99 NAME
0 54.447 68.489 2 23 230000 230000 黑龍江省
用第一行數(shù)據(jù)畫圖。
> plot(map[1,])
如果取前100行數(shù)據(jù)畫圖,那么應(yīng)該是部分中國省的行政區(qū)地圖了,果然如我所料。
> plot(map[1:100,])
由于本文并不是地圖包的詳細介紹,只要了解到map對象的基本使用就行了,稍后在博客中我會單獨介紹用R做地圖可視化的開發(fā)。
3.4 數(shù)據(jù)可視化
完成了地圖數(shù)據(jù)加載后,再接下來就是數(shù)據(jù)可視化了。數(shù)據(jù)可視化,我認為要分成2部分操作,一部分是數(shù)據(jù)處理,另一部分是可視化輸出。
我們先想一下要怎么進行數(shù)據(jù)處理,才能把天氣數(shù)據(jù)和地圖數(shù)據(jù)結(jié)合起來呢。我們的目標是要畫出中國各省天氣概況,會用到過之前過濾出的數(shù)據(jù)中code的數(shù)據(jù),code的數(shù)據(jù)都是代碼,我們還要定義code代碼和實際意義的映射關(guān)系。
Yahoo的源數(shù)據(jù)中,一共定義了49種天氣情況,如code.csv文件所示,根據(jù)描述我把相似的天氣情況進行合并,最后保留18種天氣概況特征。code代碼映射文件為lablecode.csv。
code.csv文件。
#省略
字段解釋:
code,源數(shù)據(jù)天氣特征代碼
en,英文描述
zh,中文描述
type,分類代碼
lablecode.csv文件。
#省略
字段解釋:
type,分類代碼
alias,用于顯示的別名
有了天氣特征定義后,我們再把特征匹配到不同的顏色,并增加圖例及文字描述,就生成了最終的中國各省天氣概況的靜態(tài)圖片了。
#省略
運行程序,生成靜態(tài)圖片。
> data<-read.csv(file=filename(date),header=TRUE,fileEncoding="utf-8", encoding="utf-8") # 定義數(shù)據(jù)源
> path='' # 定義輸出路徑
> summary(data,output=TRUE,path=path) # 生成中國各省天氣概況圖
RStudioGD
2
代碼量大概100行左右,就可以生成這么復雜的天氣和地圖結(jié)合的圖片,R真的很神奇!
3.5 可交互的靜態(tài)圖
這是錦上添花的一步,靜態(tài)圖片對于一般應(yīng)用來說就夠了。但如果圖片還能動起來,是不是會更吸引人呢?我們可以嘗試生成基于HTML5的、有動態(tài)效果的圖,通過recharts包調(diào)Echarts庫實現(xiàn)基于HTML5的動畫,生成會動的可交互的圖片。
由于recharts包沒有發(fā)布的CRAN,我們需要用devtools包通過Github安裝這個包。
> library(devtools) # 加載devtools
> install_github("taiyun/recharts") # 下載安裝recharts包
> library(recharts) # 加載recharts包
由于上面的天氣概況是由離散值組成的,利用echarts的庫,我們做一個連續(xù)值的可視化例子,比如白天氣溫和夜間氣溫。定義weather_html()函數(shù),提供氣溫數(shù)據(jù)并調(diào)用recharts包,實現(xiàn)可視化的輸出。
#省略
運行程序,以HTML輸出中國各省白天氣溫。
> date<-as.Date('20141001',format='%Y%m%d') # 設(shè)置日期
> data<-read.csv(file=filename(date),header=TRUE,fileEncoding="utf-8", encoding="utf-8") # 加載數(shù)據(jù)
> path='' # 設(shè)置文件輸出路徑
> weather_html(data,type='high',output=FALSE,path='') # 輸出中國各省白天氣溫
[1] "氣溫"
[1] "chart path C:\\Users\\ADMINI~1\\AppData\\Local\\Temp\\RtmpqCHFPY"
程序會自動打開瀏覽器,呈現(xiàn)HTML的網(wǎng)頁。
運行程序,以HTML輸出中國各省夜間氣溫。在網(wǎng)頁中,通過鼠標對地圖進行交互,移動左下角的溫度條,選擇最高溫度30,最低溫度8.8,中國地圖中由西南到東北變?yōu)榛疑?,說明這些地區(qū)的溫度不在8.8到30度之間。當鼠標路過海南省的時候,海南省呈現(xiàn)黃色,并提示出溫度為23度。
> weather_html(data,type='low', output=FALSE,path='') # 中國各省夜間氣溫
[1] "氣溫"
[1] "chart path C:\\Users\\ADMINI~1\\AppData\\Local\\Temp\\RtmpqCHFPY"
如果不需要在瀏覽器中打開,只能想存儲生成的網(wǎng)頁,可以在程序中設(shè)置output為TRUE,當前目錄下會生成20141001_night.html的文件。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03