
作者:丁點(diǎn)helper
來源:丁點(diǎn)幫你
上篇文章利用泰坦尼克號(hào)沉船事件中乘客的存活情況介紹了描述性數(shù)據(jù)分析,計(jì)算了不同艙位乘客的幸存率,今天我們來看看如何用圖像來直觀表達(dá)。
我們先來簡(jiǎn)單復(fù)習(xí)一下titanic.csv的內(nèi)容。
# 導(dǎo)入數(shù)據(jù) titanic <- read.csv("http://Users//Desktop//titanic.csv",header = TRUE) names(titanic) # 查看titanic中的變量名 head(titanic) # 查看titanic前6行
上篇文章計(jì)算的不同艙位乘客的死亡與幸存人數(shù)如下:
table(titanic$survived,titanic$pclass) 1st 2nd 3rd died 123 158 528 survived 200 119 181
不同艙位生存率:
survpct=paste(round(tab1[2, ]/apply(tab1,2,sum)*100,2),"%",sep="") survpct [1] "61.92%" "42.96%" "25.53%"
如果我們想直觀地描述不同艙位乘客的幸存率,可以用下面的做法:
繪制柱狀圖
barplot(table(titanic$survived,titanic$pclass))
barplot()是繪制柱狀圖的函數(shù),該函數(shù)括號(hào)中的命令為繪圖所需的數(shù)據(jù),就是前面我們計(jì)算過的不同艙位死亡及幸存者人數(shù)。
柱狀圖的顏色也可調(diào)整,下面的代碼中,col是更改柱狀圖顏色的命令:
barplot(table(titanic$survived,titanic$pclass), col=c("yellow","dark blue"))
每個(gè)艙位死亡與幸存人數(shù)柱子的排列方式也可調(diào)整,beside為改變柱狀圖排列方式的命令;beside=T意為兩個(gè)柱子并排,beside=F意為兩個(gè)柱子上下疊放。
barplot(table(titanic$survived,titanic$pclass), col=c("yellow","dark blue"), beside=T)
至此,我們已經(jīng)可以將數(shù)字轉(zhuǎn)變?yōu)橹庇^的圖像了,但是黃色和藍(lán)色的柱子分別代表幸存者還是死亡者呢?此外,圖像的標(biāo)題等重要信息也未標(biāo)示出來,圖像的可讀性還需要通過下面的步驟來提升:
設(shè)置圖例、標(biāo)題、坐標(biāo)軸標(biāo)簽等
做法比較簡(jiǎn)單,在上面代碼的基礎(chǔ)上,增加一些命令即可:
barplot(table(titanic$survived,titanic$pclass), col=c("yellow","dark blue"), beside=T, legend=T, args.legend=list(x="topleft"), main="Survival (Pct) by Passenger Class", xlab="Class",ylab="Count", ylim=c(0,600))
legend為設(shè)置圖例的命令;args.legend為設(shè)置圖例位置的命令;
main為設(shè)置圖標(biāo)題的命令;
xlab、ylab分別為設(shè)置x軸和y軸名稱的命令;
ylim為設(shè)置y軸范圍的命令。
從這個(gè)圖像可以清晰地看出,一等艙的幸存者人數(shù)為三個(gè)艙位中最多的,而三等艙的死亡者人數(shù)遠(yuǎn)高于其他兩個(gè)艙位。但是這個(gè)圖像還缺少一個(gè)信息,就是各艙位的存活率,我們可以在每個(gè)艙位的柱子上面標(biāo)記一下:
text(c(2,5,8),c(250,250,570),survpct, cex=1.2)
text()為給圖片中增加文字的函數(shù)。
其中前兩個(gè)命令為文字的位置信息,第一個(gè)命令為文字設(shè)置x軸方向的位置信息,c(2,5,8)表示將文字分別放置在x取值為2,5,8處。
第二個(gè)命令為文字增加y軸方向的位置信息,c(250,250,570)表示將其分別放置在y取值為250,250,570處。
第三個(gè)命令為文字的具體內(nèi)容,survpct是之前程序的運(yùn)行結(jié)果,為一、二、三等艙乘客的幸存率。
第四個(gè)命令cex為文字字號(hào),默認(rèn)值為1,此處設(shè)置為1.2,意為比默認(rèn)字號(hào)大20%。
以上代碼默認(rèn)標(biāo)題、x軸、y軸的文字均為英文,但有時(shí)我們也需要將其設(shè)置為中文,此時(shí)只需在上面這段代碼中增加一個(gè)『字體 (family)』命令:將圖片中的文字設(shè)置成中文。
barplot(table(titanic$survived,titanic$pclass), col=c("red","blue"), beside=T, legend=T, args.legend=list(x="topleft"), main="不同艙位乘客幸存數(shù)(率)", xlab="艙位",ylab="人數(shù)",family = "SimHei", ylim=c(0,600))
family命令需要賦值字體的英文名稱,本文將字體設(shè)置為"SimHei",即黑體。
此處還可設(shè)置其他字體,以下鏈接中總結(jié)了常見中文字體的英文名,大家可根據(jù)自己的需要選擇。
部分字體中英文名稱,資料來源于下面的鏈接
http://guangzheng.name/2017/12/18/%E5%A6%82%E4%BD%95%E8%B0%83%E6%95%B4R%E8%AF%AD%E8%A8%80%E7%BB%98%E5%9B%BE%E7%9A%84%E5%AD%97%E4%BD%93/
想從事業(yè)務(wù)型數(shù)據(jù)分析師,您可以點(diǎn)擊>>>“數(shù)據(jù)分析師”了解課程詳情;
想從事大數(shù)據(jù)分析師,您可以點(diǎn)擊>>>“大數(shù)據(jù)就業(yè)”了解課程詳情;
想成為人工智能工程師,您可以點(diǎn)擊>>>“人工智能就業(yè)”了解課程詳情;
想了解Python數(shù)據(jù)分析,您可以點(diǎn)擊>>>“Python數(shù)據(jù)分析師”了解課程詳情;
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03