
R語(yǔ)言:ggplot2精細(xì)化繪圖—以實(shí)用商業(yè)化圖表繪圖為例(二)
隨你所欲地匯總(group_by & summarize) 甚至再拆分 (spread),譬如示例里面就是把成交記錄按照成交價(jià)格和BuySell拆分
data #剛剛演示的那些數(shù)據(jù),在預(yù)測(cè)者網(wǎng)可以下載
data %>% group_by(Price,BuySell) %>% summarize(Money=sum(Money,na.rm=TRUE)) %>% spread(BuySell,Money)
Alt text
要想做好ggplot2的圖,對(duì)數(shù)據(jù)快速進(jìn)行塑形的方法是我們必須要掌握的。上面的s wirl課程非常有用,而且值得是最新的一個(gè)技術(shù)方法,值得大家學(xué)習(xí)。
3、常用的商業(yè)用圖
接下來(lái)分享一下我在這次作圖過(guò)程中,最常用的幾個(gè)圖形的代碼。首先聲明,這些圖形的進(jìn)一步做法以及變形,基本都可以在這兩本參考書(shū)籍里(R可視化技術(shù) | ggplot2:數(shù)據(jù)分析與圖表技術(shù) )找到。我這里更多的摘取一些我比較常用的圖表進(jìn)行講解
1、簡(jiǎn)單柱形圖+文本(單一變量)
2、分面柱形圖(facet_wrap/facet_grid)
3、簇型柱形圖(position=”dodge”)
4、堆積柱形圖(需要先添加百分比,再對(duì)百分比的變量做柱形圖)
5、餅圖、極坐標(biāo)圖
6、多重線性圖
在作圖之前,首先講一下ggplot2的局限。
ggplot2最大的局限是,它基本不支持雙坐標(biāo)圖和餅圖。即使能做這些圖形,也要很多設(shè)置,做起來(lái)非常繁瑣。
按我個(gè)人理解,這個(gè)局限的根源與ggplot2開(kāi)發(fā)者Hadley本身的審美習(xí)慣以及分析習(xí)慣脫不了關(guān)系。具體請(qǐng)看他在stackoverflow的這一段問(wèn)答:
It’s not possible in ggplot2 because I believe plots with separate y scales (not y-scales that are transformations of each other) are fundamentally flawed.
大神有技術(shù)就能任性。即使一堆人在他那回復(fù)下面各種求雙坐標(biāo)。。不知道Hadley現(xiàn)在有沒(méi)有改變主意,把雙坐標(biāo)列為ggplot2的下一個(gè)更新點(diǎn)。但是如果你想畫(huà)雙坐標(biāo)圖或者餅圖,至少經(jīng)個(gè)人的實(shí)踐,這些都是比較困難的,設(shè)置繁瑣而且不美觀。要么選擇用excel完成,要么聽(tīng)大神的話,用分面圖(facet)或者柱形圖代替,會(huì)更加省事一些。
所以,在了解以下常用圖形前,我們需要記住,ggplot2不是萬(wàn)能的,它雖然能做出非常美觀的圖表,但是總有一些圖不能做,因此多個(gè)工具結(jié)合使用是非常必要的。
在知道以上前提下,我們以ggplot2自帶的diamonds數(shù)據(jù)集為基礎(chǔ),結(jié)合dplyr/tidyr的應(yīng)用,介紹一下常用圖形的畫(huà)法。
然后來(lái)講一下除了雙坐標(biāo)圖和餅圖以外,ggplot2可以支持的常用圖形的畫(huà)法。數(shù)據(jù)的話,我們使用ggplot2自帶的數(shù)據(jù)包diamonds
首先定義一下
mytitle="演示:以diamond為例"
1)簡(jiǎn)單柱形圖
代碼組成如下,這里使用格式刷mybar和mytheme,然后用geom_text添加柱形圖標(biāo)簽(vjust=1表示在柱形圖里面顯示)
data1<-diamonds %>% group_by(cut) %>% summarize(avg_price=mean(price))
柱形圖<-ggplot(data1,aes(x=cut,y=avg_price,fill=as.factor(cut)))+
mytitle+mybar+mytheme+
geom_text(aes(label=round(avg_price)),vjust=1,colour="white")
2)帶分類的柱形圖
舉個(gè)例子來(lái)說(shuō),在有時(shí)候,我們想要快速繪圖。使用facet_wrap或者facet_grid可以快速繪制相應(yīng)圖形。這也是ggplot2不太支持雙坐標(biāo)的原因:可以快速繪圖,就不需要做那么多無(wú)用功了。
代碼如下:
復(fù)制代碼
#dplyr處理數(shù)據(jù)
data2<-diamonds %>% group_by(cut,color) %>% summarize(avg_price=mean(price))
#畫(huà)圖,套用設(shè)定好的繪圖元素
ggplot(data2,aes(x=color,y=avg_price))+facet_wrap(~cut,ncol = 2)+
mytitle+mybar+mytheme
#在facet_wrap里面,如果加上scales="free"的話,坐標(biāo)就不一樣了。
復(fù)制代碼
3)簇型圖
制圖要點(diǎn)是,對(duì)數(shù)據(jù)作圖后,添加geom_bar時(shí),position=”dodge”(分開(kāi)的)如果去掉這部分,默認(rèn)是生成堆積圖.
代碼如下:
復(fù)制代碼
data3<-diamonds %>% filter(cut %in% c("Fair","Very Good","Ideal")) %>%
group_by(cut,color) %>% summarize(avg_price=mean(price))
#簇狀圖
簇狀柱形圖<-ggplot(data3,aes(x=color,y=avg_price,fill=cut))+
geom_bar(stat="identity",position="dodge")+
mytheme+mytitle+mycolour_3
簇狀柱形圖
復(fù)制代碼
這里如果想要定義顏色的相應(yīng)順序的話,可以使用factor
譬如以下,只是用這行代碼對(duì)顏色重新定義一下,用levels改變factor順序,再畫(huà)圖的時(shí)候,顏色以及柱子順序就會(huì)跟著改變了。非常方便。
data3$cut<-factor(data3$cut,levels=c("Very Good","Ideal","Fair"))
4)百分比堆積圖
制圖前要事先添加一個(gè)百分比的數(shù)據(jù)之后才好作圖,這里我們用mutate(percent=n/sum(n))添加該百分比數(shù)據(jù)。同時(shí)去掉position=”dodge”
復(fù)制代碼
data4<-diamonds %>% filter(cut %in% c("Fair","Very Good","Ideal")) %>%
count(color,cut) %>%
mutate(percent=n/sum(n))
堆積圖<-ggplot(data4,aes(x=color,y=percent,fill=cut))+mytitle+
geom_bar(stat="identity")+mytheme+mytitle+mycolour_3
堆積圖
復(fù)制代碼
當(dāng)然,也可以做面積圖。不過(guò)如果數(shù)據(jù)有缺失,面積圖出錯(cuò)幾率蠻大的
5)餅圖以及極坐標(biāo)圖
參考一下這篇文章《【R】初吻R–ggplot繪制Pie Chart餅圖》以及這篇文章使用ggplot2畫(huà)圖
在ggplot2里并沒(méi)有直接畫(huà)餅圖的方法,基本上都是先畫(huà)出柱形圖,再用coord_polar轉(zhuǎn)化為餅圖
有兩種作圖方法:
1)不指定x軸,直接用geom_bar生成y軸,然后fill=分類顏色,coord_polar直接投影y
該方法的好處代碼是比較簡(jiǎn)單(coord_polar(“y”)
加標(biāo)簽方法請(qǐng)見(jiàn): http://stackoverflow.com/questions/8952077/pie-plot-getting-its-text-on-top-of-each-other#
data5<-diamonds %>% count(cut) %>%
mutate(percent=n/sum(n))
ggplot(data5,aes(x=factor(1),y=percent,fill=cut))+geom_bar(stat="identity",width=3)+mycolour_7+
coord_polar("y")+pie_theme+mytitle
2)指定x軸,x軸同時(shí)也是顏色(fill),先畫(huà)柱形圖,再轉(zhuǎn)化為圓形。壞處是公式相對(duì)比較繁瑣一些。
ggplot(data5,aes(x=cut,y=percent,fill=cut))+
geom_bar(stat="identity",width=3)+
mycolour_7+coord_polar("x")+pie_theme+mytitle
但是我嘗試了多次,在餅圖里加標(biāo)簽方法非常難以理解。。如果要餅圖加標(biāo)簽的話,或許還不如柱形圖
附上分面柱形圖畫(huà)法:
data5_1<-data5 %>% filter(color %in% c("D","E","F","G"))
ggplot(data5_1,aes(x=factor(1),y=percent,fill=cut))+geom_bar(stat="identity",width=3)+mycolour_7+
coord_polar("y")+pie_theme+facet_wrap(~color,ncol = 4)+
theme(legend.position="bottom")+mytitle
6、折線圖
除了以上柱形圖以外,折線圖我們做的也比較多。
簡(jiǎn)單的折線圖直接做就好了
然后像下圖這樣的
要點(diǎn)是,先做成如A-B-變量這樣的二聯(lián)表,然后,x軸為A,group為b,colour為b
下面代碼展示了這個(gè)處理
如果去掉group的話,折線圖會(huì)不知道怎么去處理數(shù)字。
data6<-diamonds %>% count(color,cut) %>% filter(color %in% c("D","E","F"))%>%
mutate(percent=n/sum(n))
ggplot(data6,aes(x=cut,y=n,group=color,colour=color))+geom_line(size=1.5)+mypoint+
mycolour_line_7+mytheme+mytitle
還有一些其他有用的圖形
總之,ggplot2的語(yǔ)法還是比較獨(dú)特的,而且其實(shí)處處有坑,處處有驚喜。如果作為商業(yè)繪圖的話,需要一點(diǎn)一點(diǎn)地去探索去改變,保證風(fēng)格和細(xì)節(jié)完美無(wú)缺。
不過(guò)ggplot2繪圖有個(gè)好處是,一旦整理出常用的繪圖代碼,以后就可以無(wú)限次套用,尤其是那些格式刷,事先設(shè)定好的主題等。即ggplot2繪圖,是完全可以做到越繪越快,再開(kāi)發(fā)成本低廉的。
另外補(bǔ)充說(shuō)明的是,ggplot2繪圖,個(gè)人更看好其多種映射,以及在探索性數(shù)據(jù)分析里快捷繪圖的能力,還有跟地圖啊等結(jié)合的能力。還有動(dòng)態(tài)交互等等。
譬如現(xiàn)在比較流行的R/Python與動(dòng)態(tài)網(wǎng)頁(yè)(大部分是D3)的結(jié)合 示例1,示例2
但愿各位不要將繪圖局限于上述所選的一些最常用的圖形與格式化調(diào)整里。請(qǐng)容我吐槽一句,這樣子調(diào)風(fēng)格學(xué)習(xí)真的很苦(づ ̄ ~~ ̄|||)づ
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03