
文章通過(guò)介紹Visualization 即可視化,羅列了數(shù)據(jù)的展現(xiàn)方式。對(duì)于數(shù)據(jù)分析最困難的一部分就是數(shù)據(jù)的展示,解讀數(shù)據(jù)之間的關(guān)系,清晰有效的傳達(dá)并且溝通數(shù)據(jù)信息。
對(duì)于數(shù)據(jù)挖掘,我們可以通過(guò)文中對(duì)數(shù)據(jù)可視化的案例找到分析數(shù)據(jù)、展現(xiàn)數(shù)據(jù)的方法和思路。
Data visualization 是一件很有趣的事情。最近在嘗試處理數(shù)據(jù),便順手翻了翻 visualization 的進(jìn)展,然后除了 IBM 大名鼎鼎的的 many-eyes 。
還有一個(gè)比較好有意思的網(wǎng)站是visualizing。Visualizing 跟 many-eyes 很像,都是社區(qū)形式的網(wǎng)站,用戶可以注冊(cè)然后上傳,而且網(wǎng)站還有積累下來(lái)的很多數(shù)據(jù)供用戶使用。
當(dāng)然我不是為了介紹這個(gè)網(wǎng)站才寫(xiě)這篇 post 的,寫(xiě) post 是一個(gè)記筆記的過(guò)程,如果我不能從中學(xué)到什么,就有點(diǎn)浪費(fèi)時(shí)間了。下面進(jìn)入正題,我嘗試總結(jié)一下 visualization 的時(shí)候的幾個(gè)可用的經(jīng)驗(yàn)。
從 visualizing.org 的分類(lèi)中提取出來(lái)的有用的形式包括(不過(guò)說(shuō)實(shí)話這樣分類(lèi)并不是很好用)
要可視化的數(shù)據(jù)可以分幾類(lèi)(我想的不全面,歡迎補(bǔ)充,共同學(xué)習(xí))
寫(xiě)成 A?B 粗體的拉丁字母表示一系列對(duì)象,比如一系列地點(diǎn)。
這種情況下因?yàn)橐故緮?shù)據(jù)之間相互關(guān)系,所以實(shí)質(zhì)上是一個(gè) network 圖,不過(guò)通過(guò)一些技巧可以把簡(jiǎn)單的 network 圖變成更好的形式。
方式一:使用轉(zhuǎn)換成 flow 圖。通過(guò)把對(duì)象列出兩遍來(lái)是的原本應(yīng)該是一個(gè)比較復(fù)雜難以看清的 network 變成了清晰易查找的 flow。
這類(lèi)圖中我喜歡的一個(gè)是 people moving 的 flow
這個(gè) flow 圖非常好的展示了從一個(gè)國(guó)家移民到另一個(gè)國(guó)家,上面的截圖就是人們移居(migrate,是移民么?)到加拿大的情況,可以看到中國(guó)(CH)移民到加拿大的還是比較多的。通過(guò)這樣的 flow,我們可以很容易很直觀的分析數(shù)據(jù)。
方式二:圈形的 network 圖。為什么要做出圈形呢?因?yàn)槿π慰梢允沟眠B線集中在圈內(nèi)部,而且可以減少數(shù)據(jù)交叉。通過(guò) interactive design,可以使得連線無(wú)交叉。比如這個(gè) Migrants moving money:
這個(gè)截圖是中國(guó)的僑款,也就是中國(guó)移民所寄回祖國(guó)中國(guó)的錢(qián)數(shù)。可以看排除香港地區(qū),美國(guó)是最大的來(lái)源。
事實(shí)上這種方法與第一種本質(zhì)是相同的。
方式三:network 圖。通過(guò)點(diǎn)和連線來(lái)關(guān)聯(lián)。例子比如Attractions of Councils: WEF GAC interlink survey
但是這個(gè)圖實(shí)際上并不好。而且有時(shí)候,線條是可以去掉的,比如這個(gè)國(guó)際航班的可視化:
Click a nation to see all connected nations via flights. Click again to see arranged nations based on the distance. Double-click the background to reset.
截圖:
方式四:使用 table。不過(guò)為了更直觀,使用面積等方式來(lái)代表數(shù)據(jù)的大小。
比如 10 個(gè)人任意兩個(gè)人之間相互按照對(duì)對(duì)方的好感程度打分,為了展示任意兩個(gè)人 A 和 B 之間相互的好感程度,可以使用顏色柱來(lái)展示,選定一個(gè)作為兩個(gè)人好感程度相同,顏色柱之上的顏色表示 A 對(duì) B 的好感大于 B 對(duì) A 的好感,反之亦然。
這里有個(gè) council 之間的例子,截圖如下:
就是 Hierarchy 圖,不過(guò)有時(shí)候可以省掉連線。
比如這個(gè) soft drink 的 hierarchy 圖
從這張截圖立刻可以看到 coca-cola 和 pepsi 的龐大,通過(guò)原網(wǎng)頁(yè)可以自由的放大縮小來(lái)查看不同的公司的產(chǎn)品。
這樣的 hierarchy 圖要比單調(diào)的并列的整整齊齊的列舉要包含了更多的信息,因?yàn)閳A圈的大小可以表示數(shù)據(jù)的一個(gè)維度,甚至還可以引入顏色等等來(lái)表示更多的維度。
方式一:使用 Histogram。這是比較經(jīng)典的選擇,即使用矩形或者線條的長(zhǎng)度來(lái)表示數(shù)據(jù)的大小。例如這個(gè)關(guān)于能源的 visualization
方式二:使用樹(shù)圖(Tree map),使用面積表示數(shù)據(jù)的大小。這里有個(gè) UN 的 Global Pulse Visualization 的例子:
方式三:使用散點(diǎn),使用散點(diǎn)的大小或者顏色等屬性來(lái)表示數(shù)據(jù)的大小。
一個(gè)很優(yōu)秀的例子是學(xué)生坐座位習(xí)慣的例子,截圖:
事實(shí)上 tag page 也是屬于這類(lèi),我們可以通過(guò)每個(gè) tag 的大小顏色等等來(lái)標(biāo)示數(shù)據(jù)的大小。
除了可以使用上面說(shuō)提到的方式,對(duì)于坐標(biāo)數(shù)據(jù),有個(gè)特點(diǎn)是可以繪制地圖(Map),而 Map 可以與其他形式結(jié)合,比如 flow。一個(gè)比較好的例子是關(guān)于我們坐飛機(jī)的一張圖,截圖如下:
圖片上部的地圖是飛行的出發(fā)城市,下部的地圖是終點(diǎn)城市。更多內(nèi)容可以查看UCSB的這個(gè)站點(diǎn),其中提供了 demo 軟件。
前些時(shí)候,以為天文學(xué)家 Goodman 寫(xiě)過(guò)一篇關(guān)于高維天文數(shù)據(jù)可視化的論文,其中提到了 linked views 很重要,就是說(shuō)我們要多種可視化方式聯(lián)合起來(lái)展示數(shù)據(jù),我截取論文中一張圖片來(lái)說(shuō)明。
不同的 visualization 結(jié)合起來(lái)對(duì)數(shù)據(jù)進(jìn)行多角度的呈現(xiàn),可以使我們對(duì)數(shù)據(jù)有更深刻的理解。所以 data mining 實(shí)際上是一個(gè)應(yīng)用非常廣泛的專(zhuān)業(yè),一個(gè) data mining 專(zhuān)業(yè)的學(xué)生在現(xiàn)在這種天文專(zhuān)業(yè)被大量數(shù)據(jù)所轟炸真是個(gè)寶貝啊。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10