
作者 | Destiny
來源 | 木東居士
0x00 前言
數(shù)據(jù)圖表的選擇(上),分享了「時序數(shù)據(jù)」和「比例數(shù)據(jù)」的可視化圖表方案。
不同的數(shù)據(jù)類型、不同的闡述目的,決定了數(shù)據(jù)可視化展現(xiàn)形式的差異。因此,今天這篇文章,主要是分享兩類不同的可視化目的及其可選擇的圖表形式。
0x01 對比型數(shù)據(jù)可視化
在實際工作中,我們經(jīng)常需要對比多組數(shù)據(jù)之間的差異,而這些差異通常是通過不同的標記和視覺通道體現(xiàn)出來。
1.柱狀圖
在《數(shù)據(jù)圖表的選擇(上)》有寫到,柱狀圖是離散時間數(shù)據(jù)可視化的方式之一,只不過這里的系列值的數(shù)據(jù)類型是「時間」而已。
柱狀圖除了可以用于離散時間數(shù)據(jù)的可視化,更多的是用于比較不同分類數(shù)據(jù)的可視化,且柱狀圖的數(shù)據(jù)條數(shù),最好不要超過12條。
以下根據(jù)數(shù)據(jù)類別的個數(shù)和可視化的目的,細化柱狀圖的圖表選擇:
2.條形圖
條形圖,可以視為是柱狀圖的一種變體,在大部分情況下,是可以互換的。那么在哪些情況下,條形圖能比柱狀圖更好的展示數(shù)據(jù)呢?
3.面積圖
面積圖,是折線圖的一種延伸,其實就是折線圖和折線圖投影到X軸的直線所圍成的面積。
按照對比方式的不同,面積圖可以分為:「重疊對比型面積圖」和「堆砌對比型面積圖」,兩者的區(qū)別如下。
面積圖,一般也是用于趨勢分析中。
當需要分析各個系列,隨時間的變化趨勢時,此時使用「重疊對比型面積圖」比較合適;當既需要分析整體隨時間的變化趨勢,又要了解整體的各構(gòu)成項隨時間的變化趨勢時,使用「堆砌對比型面積圖」比較合適。
4.氣泡圖
氣泡圖,和散點圖的區(qū)別是,氣泡圖一般是用于三維數(shù)據(jù)的可視化,而散點圖是用于二維數(shù)據(jù)的可視化。
在散點圖中,圓點的面積是相同的,主要是通過圓點在坐標軸中的坐標點(X,Y)確定的位置,來映射數(shù)據(jù)。
而氣泡圖,是通過氣泡的面積大小來對比數(shù)據(jù)的圖形方式,它除了可以反映散點圖中坐標點X、Y的相關(guān)關(guān)系,還有一個維度的數(shù)據(jù)可以映射到氣泡的面積大小上,因此「氣泡圖」可以在二維平面展示三維信息的數(shù)據(jù)。
如上圖所示,左側(cè)的氣泡圖,每個氣泡展示了三個屬性的信息,X-代表人均GDP,Y-代表對應國家的平均壽命,Z-即氣泡的大小,代表對應國家的人口數(shù)量。所以,相較于散點圖而言,氣泡圖除了可以展示X、Y兩個變量間的相關(guān)關(guān)系,同時還可以對比主體另一個維度的數(shù)據(jù),并且這個數(shù)據(jù)是映射到氣泡的大小上的。
當只有一個系列時,只需要一種氣泡圖只需要一種顏色即可。當有多個系列時,不同系列之間可以用顏色來區(qū)別。
5.單詞云圖
單詞云圖,主要是用于網(wǎng)絡文本中詞頻數(shù)據(jù)的可視化,如關(guān)鍵詞搜索,文章高頻詞,熱點事件關(guān)鍵詞等。
單詞云圖,是通過單詞的字號大小來反映詞頻的大小,字號越大,詞頻越高。通常,為了達到貼合主體的特征,以及視覺美觀的目的,用戶可以自定義單詞云的配色方案、背景形狀等設(shè)計層面的個性化。
通過單詞云圖,用戶可以快速找出網(wǎng)站搜索的高頻詞匯、了解文章的主旨、get到熱點事件的關(guān)鍵信息。但是要注意一點,單次云圖只適合表示一組文本數(shù)據(jù)的對比,不適合多個類別的文本數(shù)據(jù)之間的比較。
6.雷達圖/星狀圖
當需要對比一個主體、或多個主體本身,在不同維度上的特征時,雷達圖和星狀圖是不錯的選擇。
雷達圖和星狀圖的區(qū)別是:
簡單理解就是,雷達圖可以視為是星狀圖中的一行記錄。而且,一般情況下,會給予不同維度上的數(shù)值一定的權(quán)重,從而算出各個主體的綜合得分,我們的芝麻信用分就是這么來的。
0x02 分布型數(shù)據(jù)可視化
數(shù)據(jù)的分布特征,是統(tǒng)計學中「描述性統(tǒng)計」模塊研究的內(nèi)容。要對數(shù)據(jù)的分布情況進行可視化呈現(xiàn),首先需要了解數(shù)據(jù)的描述性度量(集中趨勢、離散程度、偏態(tài)和峰度),通過這些反映數(shù)據(jù)分布特征的關(guān)鍵指標,才能確定能夠使用哪些圖表來進行可視化展示。
描述性統(tǒng)計的相關(guān)內(nèi)容,可以參考這篇文章《統(tǒng)計學第1篇 描述性統(tǒng)計》。
1.直方圖
我們常用的直方圖,主要有「頻數(shù)直方圖」和「頻率直方圖」,它們都是用于展示離散型分組數(shù)據(jù)的分布情況。
繪制直方圖,有如下幾步:
若縱軸表示的是頻數(shù),則是「頻數(shù)直方圖」;若縱軸展示的是「頻率」,則為「頻率直方圖」,如上圖所示。
「頻數(shù)分布直方圖」中,頻數(shù)乘以組距得出每個分組的數(shù)量,可以看出頻數(shù)分布直方圖是用面積來表示頻數(shù)的,和柱狀圖(條形圖)是用長方形的高度(寬度)表示數(shù)量是有本質(zhì)性區(qū)別的。
2.莖葉圖
莖葉圖一般適合數(shù)據(jù)為整數(shù)的數(shù)據(jù)的可視化,就目前而言,我工作中用得比較少,簡單講下用法。
莖葉圖的原理是,將一組數(shù)據(jù)按照數(shù)據(jù)位數(shù)進行比較,將數(shù)據(jù)中的高位數(shù)作為樹莖,低位數(shù)作為樹葉。假設(shè)有如下一組數(shù)據(jù):
3,7,9,14,15,16,25,26,29,36,41,43,45,46,49
數(shù)據(jù)范圍頻數(shù)0-9310-19320-29330-39140-495
對應的樹莖和樹葉可以表示為:
樹莖樹葉03791456256936413569
圖形化表示為:
3.箱線圖
在描述性統(tǒng)計中,有涉及到分位數(shù)相關(guān)的知識,其中比較常用的是四分位數(shù),即一組數(shù)據(jù)中的下四分位數(shù)Q1、中位數(shù)、上四分位數(shù)Q3,關(guān)于分位數(shù)的概念不清楚的同學可以自行查閱相關(guān)資料。
一組數(shù)據(jù)中的四分位數(shù),加上這組數(shù)據(jù)的最大值、最小值,這5個特征值,就可以繪制一個箱線圖。
箱線圖釋義:
箱線圖常用的場景有如下幾類:
(1)對比多組數(shù)據(jù)的分布情況。
(2)檢測數(shù)據(jù)中的異常值或離群點。
4.概率密度圖
若要描述連續(xù)型隨機變量其分布規(guī)律,概率密度圖是一種很直觀表現(xiàn)形式。
在數(shù)學中,連續(xù)型隨機變量的概率密度函數(shù)是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數(shù),簡單理解就是,連續(xù)型隨機變量取值某個確定數(shù)值的概率,即為縱切直線與概率密度函數(shù)交點的縱坐標的值。而隨機變量的取值落在某個區(qū)域之內(nèi)的概率則為概率密度函數(shù)在這個區(qū)域上的積分,也就是區(qū)間的上下限與概率密度曲線圍成的面積。
通過圖形化的方式,我們可以清楚的看到隨機變量分布的對稱性情況,以及隨機變量取值是集中還是分散,這些可以通過偏態(tài)系數(shù)和峰度系數(shù)來度量,此處不深入闡釋。
可參照上述氣泡圖描述部分,不重復贅述。
6.熱力圖
熱力圖,是通過密度函數(shù)進行可視化,用于表示地圖中點的密度的熱圖?,F(xiàn)階段,熱力圖在地圖、網(wǎng)頁分析、業(yè)務數(shù)據(jù)分析等其他領(lǐng)域也有較為廣泛的應用。
7.地圖
當數(shù)據(jù)帶有地理型信息屬性時,首選的可視化圖表為地圖。按照展示的數(shù)據(jù)空間劃分,地圖可以分為二維平面地圖和三維立體地圖。
比如我們常用的導航軟件、天氣預報、降水量、臺風移動路線等都和地理信息相掛鉤,這些數(shù)據(jù)一般也是在地圖上進行呈現(xiàn),給人以直觀的視覺體驗。
0xFF 總結(jié)
無論是要對比數(shù)據(jù),還是研究數(shù)據(jù)的分布情況,都需要根據(jù)數(shù)據(jù)的類型、數(shù)據(jù)的特征來確定可視化的最佳方式。
根據(jù)數(shù)據(jù)之間的關(guān)系、分析目的、數(shù)據(jù)特征,來選擇和確定相應的圖表類型,這個是可視化過程中需要牢牢把握的要點。圖表的目的,是為了更直觀、準確的呈現(xiàn)數(shù)據(jù)背后的信息和知識,不同數(shù)據(jù)關(guān)系應該選擇什么圖表都是有套路的可循的。
但是,如果只是為了使用某個覺得高大上的圖表,而不管數(shù)據(jù)的特征是否適用,則是舍本逐末的做法,最終的可視化效果也必定是不理想的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10