
來源 | 鏑次元數(shù)據(jù)新聞
譯 | 宋宇
編者按:
可視化有許多“規(guī)則”。有的是實(shí)際的規(guī)則,有的則是幫助你做出選擇的建議。如果是出于數(shù)據(jù)的要求,而且你也知道該怎么做,那么許多實(shí)際的規(guī)則也不必遵守。
但是,的確有一些規(guī)則不應(yīng)該違背。這些規(guī)則通常是用于一些特定種類、幾乎只能用特定方式閱讀的圖表。當(dāng)這些規(guī)則被打破,閱讀過程中,數(shù)據(jù)有可能被誤讀。這會有點(diǎn)棘手。
條形圖的基線必須從零開始
條形圖依賴長度來呈現(xiàn)數(shù)據(jù)。短的條塊代表較低的值,長一些的則表示較高的值。條形圖的原理就是通過比較條塊的長度來比較值的大小。
當(dāng)基線被改變了,視覺效果也就扭曲了。
舉例來說,請看上圖。左邊第一幅條形圖比較了兩個(gè)值:50和100,它有一條并且它有一條以零為起點(diǎn)的基線。很好。代表數(shù)值100的條塊長度正好是數(shù)值50的兩倍長,為100正好也是50的兩倍大小。
但當(dāng)你把基線變?yōu)橐粋€(gè)更高的、非零的值時(shí),第一個(gè)條形的長度變短了,而另外一個(gè)條形的長度卻沒有變。此時(shí)值為100的條形不再是值為50的條形的兩倍長。以此類推,當(dāng)最后左邊代表數(shù)值50的條形徹底消失了,意味著100無限地大于50了。
條形圖的基線必須從零開始。
例:這張條形圖是經(jīng)福克斯新聞準(zhǔn)許使用的。
3月31日目標(biāo)的值為7,066,000,比6,000,000高17.8%,然而第二個(gè)條形幾乎是第一個(gè)條形長度的三倍。
有人也許會反駁說,這張圖的重點(diǎn)在于兩個(gè)值的差而非這兩個(gè)值本身。即便如此,用條形圖來表示本身就是一個(gè)錯(cuò)誤的選擇。使用時(shí)間序列來呈現(xiàn)月累積數(shù)也許會更好。
不要過分熱衷于餅圖
有些人認(rèn)為,應(yīng)該完全避免餅圖。他們也許是對的,也許又不是。有些人也許會說,使用餅圖完全是一種不可原諒的錯(cuò)誤。對此,我不同意。不管怎樣,事實(shí)情況是人們?nèi)匀皇褂蔑瀳D,所以我們至少可以爭取正確地使用它們。
避免過度切割餅圖,否則最終對它的閱讀將難以為繼。
那么多少是“太多”?這是一個(gè)判斷力的問題。不過,如果已經(jīng)很難從圖中看出其中一塊扇形是另一塊兩倍大,或者好幾個(gè)較小的扇形區(qū)域看起來差不多大時(shí),在扇形切割上面就該收手了。此時(shí)可以考慮把較小的類目歸入一個(gè)更大的:“其他”。圓環(huán)圖也是一樣。
同時(shí)也考慮一下用其他種類的圖表來表示比例。
不要太依賴于餅圖。
例:這張餅圖來自維基百科,它展示了國家的不同區(qū)域。
左邊這張餅圖中已經(jīng)切割了許多塊,但旁邊另分離出一張餅圖,顯示了左圖中看不清楚的更小國家的情況,以此來提供更多的信息。有許多方式可以展示這組數(shù)據(jù),比如樹狀圖、按照數(shù)據(jù)比例制作的圖標(biāo),或者就用普通的地圖。單薄的餅圖只適用于顯示只有幾組值的數(shù)據(jù)。
尊重部分所占整體的比例
相較于呈現(xiàn)數(shù)值,有些圖更著重于表現(xiàn)部分與整體的關(guān)系,它們表現(xiàn)的數(shù)據(jù)是部分所占整體比例。比如,堆積式條形圖,堆積區(qū)域圖,樹狀圖,馬賽克圖,圓環(huán)圖以及餅圖。在這些圖表中,每一個(gè)部分都表示一個(gè)獨(dú)立的、不重疊的比例。
關(guān)于這一條,最常見的錯(cuò)誤發(fā)生在調(diào)查問題允許多選時(shí)。比如說:“你上周使用了哪一種交通工具?可以多選?!边@樣的話,在人們多選的問題上就會出現(xiàn)比例的重疊,不同選項(xiàng)的百分比之和大于一。為了避免這種情況,你不能直接把比例做成統(tǒng)計(jì)圖。
例:這張餅圖來自??怂剐侣勏聦贆C(jī)構(gòu),它表現(xiàn)了三個(gè)不屬于同一個(gè)整體的百分比。
每一個(gè)值都是一個(gè)單獨(dú)的整體,因此在這一例中,用三個(gè)堆積式條塊(或普通的條塊)會更直觀地表現(xiàn)每個(gè)值的比例。
展示數(shù)據(jù)
讓讀者看到數(shù)據(jù),這是可視化的重點(diǎn)。如果數(shù)據(jù)的呈現(xiàn)不夠清晰,就違背了做圖表的初衷。這常常是因?yàn)橐粡垐D里的數(shù)據(jù)太多,于是讀者的興趣就被分散了。
這是一個(gè)經(jīng)典的“繪圖過度”的問題,相關(guān)的研究有很多。但是對于基本的圖表,也有一些簡單的解決方式。
首先是可以改變符號的大小,這樣上圖中的小圓點(diǎn)(或者是其他的符號)就不會占據(jù)太多空間。為了讓數(shù)據(jù)直觀清晰,主要要增加空白。
調(diào)節(jié)透明度,多層次的圖案就不會被覆蓋。
通過取樣或者把對數(shù)據(jù)進(jìn)行分類的方式,把總體分成幾個(gè)更小的子群。從中,你可以采取小而多的方式,這樣每張表里的信息就會少一些。
數(shù)據(jù)進(jìn)行再統(tǒng)計(jì)及分門別類。
總而言之,更好地呈現(xiàn)數(shù)據(jù)。
例:這張圖展示了金州勇士隊(duì)在2008-09賽季的每個(gè)投籃。
這張圖最終形成了一個(gè)球場的形狀,并得出了對于球員們投籃最多的地點(diǎn)的一個(gè)小結(jié)論——近框,中距離,以及三分球。但是它們之間的差距是很小的,讀者并不能看清真正量級上的差距。
數(shù)據(jù)聚合法將有助于解決此類問題。
解釋編碼
通過一定的形狀、顏色和幾何圖形的結(jié)合,將數(shù)據(jù)呈現(xiàn)出來。為了讓讀者能讀清楚,圖表設(shè)計(jì)者就要把這些圖形解碼回?cái)?shù)據(jù)值。經(jīng)典的例子是沒有標(biāo)注的坐標(biāo)軸。
有時(shí)編碼不需要解釋。比如說,讀者也許知道怎樣讀條形圖,就不必解釋條的長度表示的是值的大小了。但是設(shè)計(jì)者的確應(yīng)該解釋數(shù)據(jù),也就是圖表的單位和主題。
所以標(biāo)明坐標(biāo)軸代表的含義。要給讀者提供線索或圖例,解釋圖表。
例:這個(gè)錯(cuò)誤標(biāo)注的圖表來自溫尼伯太陽報(bào):
我們要是能知道這是統(tǒng)計(jì)關(guān)于什么的問題就好了。
大功告成
搞定了。最后一件事就是確保你沒有違反最基礎(chǔ)的可視化規(guī)則——這都是關(guān)于理解數(shù)據(jù)轉(zhuǎn)換可視化圖形的過程。如果能弄明白怎數(shù)據(jù)是如何轉(zhuǎn)換成幾何圖形的,你就可以創(chuàng)作自己的可視化作品了。但對于特定的幾種只能用特定方式來讀取的圖表,是沒有什么改變的余地的。
總之,一定要學(xué)會把數(shù)據(jù)轉(zhuǎn)換成可視化圖形。然后真正理解可視化制圖中“規(guī)則”和“建議”的不同之處。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10