
數(shù)據(jù)可視化專家的七個(gè)秘密
數(shù)據(jù)可視化的道路上充滿了不可見(jiàn)的陷阱和迷宮,最近ClearStory Data的兩位數(shù)據(jù)可視化開發(fā)人員分享了他們總結(jié)出來(lái)的數(shù)據(jù)可視化開發(fā)的7個(gè)不宣之秘,普通開發(fā)者了解這些方法能提升視野,少走彎路。數(shù)據(jù)可視化, 特別是基于Web的數(shù)據(jù)可視化的時(shí)代已經(jīng)到來(lái)了。 類似JavaScript的可視化庫(kù)如D3.js, Raphaël, 以及Paper.js, 以及最新瀏覽器所支持的如Canvas和SVG, 以及使得那些過(guò)去只能由計(jì)算機(jī)專家和專業(yè)設(shè)計(jì)人員開發(fā)的復(fù)雜的可視化變得越來(lái)越簡(jiǎn)單了。
數(shù)據(jù)可視化如今成為了很多網(wǎng)站項(xiàng)目的必備功能。 而類似于Platfora, DatameerClearStory Data以及Chartio等初創(chuàng)公司則可以利用基于瀏覽器的分析平臺(tái)融到數(shù)百萬(wàn)美元的投資。
數(shù)據(jù)可視化是數(shù)據(jù)探索以及數(shù)據(jù)表現(xiàn)的重要方式, 然而, 對(duì)于數(shù)據(jù)可視化的開發(fā)者來(lái)說(shuō), 依然有很多挑戰(zhàn)要去面對(duì)。 這些迎接這些挑戰(zhàn)的方法, 則是很多專業(yè)的數(shù)據(jù)可視化開發(fā)者不愿意讓別人知道的秘密。 ClearStory Data的兩位數(shù)據(jù)可視化開發(fā)人員Nate Argrin和 Nick Rabinowitz 在 netmagzine.com上分享了他們總結(jié)出來(lái)的數(shù)據(jù)可視化開發(fā)的7個(gè)秘密以及在實(shí)踐中如何應(yīng)對(duì)的方式。
秘密一: 現(xiàn)實(shí)中的數(shù)據(jù)往往很丑
大部分的數(shù)據(jù)可視化的教程, 都會(huì)讓你輕松地從一個(gè)原始數(shù)據(jù)集開始。 無(wú)論你是學(xué)習(xí)基本的柱狀圖還是力導(dǎo)向的網(wǎng)絡(luò)圖, 你的數(shù)據(jù)都是干凈的,經(jīng)過(guò)整理的數(shù)據(jù)。 這些完美的JSON或者CSV文件就像電視里的廚藝節(jié)目中的灶臺(tái)那樣干凈整潔。而實(shí)際上, 當(dāng)你在處理現(xiàn)實(shí)中的真正的數(shù)據(jù)是, 你80%的時(shí)間得用來(lái)搜尋, 獲取, 載入, 清洗以及轉(zhuǎn)換你的數(shù)據(jù)。
這樣的過(guò)程, 有時(shí)候可以用自動(dòng)化的工具來(lái)完成。 不過(guò), 差不多任何需要針對(duì)兩個(gè)以上的數(shù)據(jù)集進(jìn)行清洗的工作總會(huì)需要或多或少的人工的工作。有很多工具能夠把XLS文件轉(zhuǎn)化為XML的格式或者把時(shí)間戳轉(zhuǎn)換為其他日期格式。但是, 要想把一個(gè)公司的內(nèi)部使用的銷售類型與競(jìng)爭(zhēng)對(duì)手進(jìn)行比對(duì), 或者對(duì)輸入錯(cuò)誤進(jìn)行檢查, 或者對(duì)不同的Encoding或者OCR產(chǎn)生出來(lái)的文字進(jìn)行檢查時(shí), 就只能靠手工來(lái)處理了。
工具及處理方式:
秘密二: 柱狀圖往往更好
和柱狀圖比起來(lái), 氣泡圖可以在同樣的空間表現(xiàn)更多地?cái)?shù)據(jù), 餅圖可以更清晰地表現(xiàn)整體和局部的關(guān)系, 樹狀圖能夠更好地表現(xiàn)分層的結(jié)構(gòu)。然而, 這些圖在簡(jiǎn)單明了方面都無(wú)法與柱狀圖相比。
在考慮數(shù)據(jù)可視化設(shè)計(jì)方案時(shí), 我們要問(wèn)自己的第一個(gè)問(wèn)題就是:“這個(gè)方案比柱狀圖好嗎?” 如果你需要在一個(gè)單一維度上可視化一個(gè)可量化的數(shù)據(jù)集,那么很少有別的方式能比得上柱狀圖。 類似的, 時(shí)間序列最好表現(xiàn)為線狀圖, 而散點(diǎn)圖一般用來(lái)表現(xiàn)兩個(gè)線性度量的相關(guān)性。 在數(shù)據(jù)可視化設(shè)計(jì)中, 使用這些從18世紀(jì)以來(lái)就一直在使用的圖風(fēng)險(xiǎn)最低。 而柱狀圖對(duì)于進(jìn)行數(shù)據(jù)比較的可視化來(lái)說(shuō)是最佳方式。 因?yàn)槲覀內(nèi)搜圩盍?xí)慣的比較方式就是將兩個(gè)東西并排比較。
關(guān)于柱狀圖優(yōu)先, 其實(shí)揭示了數(shù)據(jù)可視化中一個(gè)最大的秘密, 那就是, 那些最酷的可視化往往用處反而最小。 最求新奇以及美觀的可視化往往帶來(lái)一個(gè)問(wèn)題,那就是數(shù)據(jù)的可理解問(wèn)題。 很多柱狀圖的替代圖迫使人們用他們并不擅長(zhǎng)的方式進(jìn)行比較, 如比較面積, 角度, 色彩, 或者透明度等。 這些比較, 說(shuō)好聽的, 是增加了比較的難度,說(shuō)的嚴(yán)重一些, 可能會(huì)對(duì)數(shù)據(jù)進(jìn)行扭曲, 導(dǎo)致使用者得出錯(cuò)誤的結(jié)論。
工具及處理方式:
秘密三: 真實(shí)數(shù)據(jù)不可替代
對(duì)一個(gè)數(shù)據(jù)集進(jìn)行清洗和格式化已經(jīng)很繁瑣了, 如果你需要設(shè)計(jì)一個(gè)基于多個(gè)數(shù)據(jù)集的可視化呢? 比如你需要把公司不同部門的數(shù)據(jù)進(jìn)行可視化, 而這些部門各自有各自的數(shù)據(jù)庫(kù), 而且你也沒(méi)有時(shí)間手工把每個(gè)數(shù)據(jù)集進(jìn)行清洗。 這時(shí)候, 人們的第一想法可能是抓一些Demo的數(shù)據(jù)來(lái)進(jìn)行可視化。 而且你的可視化庫(kù)里可能就有一些標(biāo)準(zhǔn)的樣本數(shù)據(jù)。
很不幸, 真實(shí)數(shù)據(jù)不可替代。 Demo數(shù)據(jù)一般遵循正態(tài)分布而且數(shù)據(jù)量有限。 是為了展示可視化用的。 而一個(gè)看上去完美的柱狀圖,并不能幫助你解決那些數(shù)據(jù)缺失, 異常數(shù)據(jù)或者現(xiàn)實(shí)中的真實(shí)問(wèn)題。 如果你過(guò)度依賴Demo數(shù)據(jù), 當(dāng)你用真實(shí)數(shù)據(jù)時(shí), 你就會(huì)發(fā)現(xiàn)你的數(shù)據(jù)可視化設(shè)計(jì)并不能真正滿足你的數(shù)據(jù)分析或者數(shù)據(jù)表現(xiàn)的需求。
工具及處理方式:
秘密四:細(xì)節(jié)的地方才最頭痛
如上圖, 當(dāng)你水平排列數(shù)據(jù)標(biāo)識(shí)時(shí), 數(shù)據(jù)標(biāo)識(shí)會(huì)看不清, 如果旋轉(zhuǎn)90度, 數(shù)據(jù)標(biāo)識(shí)是看清楚了, 不過(guò)又浪費(fèi)了很大一塊空間。 選擇一個(gè)合適的數(shù)據(jù)標(biāo)識(shí)格式對(duì)有些可視化來(lái)說(shuō)是個(gè)解決方案, 不過(guò)也不是對(duì)所有方案都適用。
設(shè)計(jì)數(shù)據(jù)標(biāo)識(shí), 注釋或者橫軸縱軸通常都是在初始可視化后才考慮的。 不過(guò)這些元素對(duì)可視化來(lái)說(shuō)非常重要, 而且可能會(huì)很困難或者需要大量時(shí)間才能把它們做好。 特別是在你無(wú)法事先預(yù)知你的數(shù)據(jù)的情況下。
在設(shè)計(jì)你的可視化的時(shí)候, 你需要留出相當(dāng)部分的空間以便你可能需要添加標(biāo)識(shí)只用, 通常要在你的圖周圍留出相對(duì)較大的空間。 橫縱軸上的標(biāo)識(shí)要保證它們不相互覆蓋而且可讀。 如果必要的話, 可以將標(biāo)識(shí)進(jìn)行旋轉(zhuǎn)來(lái)增加可讀性。 如果有一塊空間標(biāo)識(shí)過(guò)于集中, 而你又需要這些標(biāo)識(shí)可讀, 你可以讓考慮把標(biāo)識(shí)離它們所指的元素遠(yuǎn)一些, 然后用連接線把標(biāo)識(shí)和元素連起來(lái)。 另外一種方式就是把標(biāo)識(shí)整合成一個(gè)組, 用標(biāo)識(shí)工具提示的方式來(lái)進(jìn)行可視化。 如果標(biāo)識(shí)的文字過(guò)長(zhǎng), 可以考慮進(jìn)行縮寫或者把超出的文字剪掉等方式。
類似的, 對(duì)圖的注釋也需要事先計(jì)劃好。 最簡(jiǎn)單的方式就是在可視化中保留一部分區(qū)域來(lái)方便添加注釋。 不過(guò), 這樣意味著你的圖所占的部分就會(huì)減小。 為了保留空間, 把注釋放在圖上的空白部分。 或者把注釋做成可拖拽, 這樣用戶可以把注釋移開來(lái)看注釋遮蓋的部分。
工具及處理方式:
秘密五:需要的時(shí)候才用動(dòng)畫
可視化的設(shè)計(jì)者經(jīng)常希望能夠在最終設(shè)計(jì)上加上動(dòng)畫。 動(dòng)畫是一種連接數(shù)據(jù)和變化趨勢(shì)的非常有用的工具。 不過(guò)動(dòng)畫也常常會(huì)導(dǎo)致對(duì)你的數(shù)據(jù)的錯(cuò)誤理解。 你需要對(duì)它會(huì)如何影響你的最終效果進(jìn)行評(píng)估, 而不是簡(jiǎn)單地在最后加上動(dòng)畫效果。 動(dòng)畫最適合表現(xiàn)的, 是揭示數(shù)據(jù)如何在不同狀態(tài)下組合在一起, 如何隨時(shí)間變化或者是如何相互影響的等場(chǎng)合。
一般的設(shè)計(jì)原則是, 動(dòng)畫要簡(jiǎn)單, 可預(yù)測(cè)并且可以重新播放。 讓用戶能夠多次播放動(dòng)畫, 可以讓他們看到動(dòng)畫元素從哪里開始到哪里停止。 要避免不同元素在移動(dòng)中互相覆蓋, 不要讓元素的運(yùn)動(dòng)不可預(yù)測(cè)。 對(duì)于復(fù)雜的動(dòng)畫, 研究表明, 可以把動(dòng)畫分解為幾個(gè)不同的階段,在每個(gè)階段暫停一會(huì)給用戶一些時(shí)間來(lái)體會(huì)。 這樣有助于提高用戶的理解。
工具及處理方式:
秘密六: 數(shù)據(jù)可視化不是分析
數(shù)據(jù)可視化可以產(chǎn)生一些分析結(jié)果, 不過(guò)需要指出的是, 可視化是一個(gè)輔助分析的工具, 而不是數(shù)據(jù)分析的替代, 它也不是統(tǒng)計(jì)的替代: 你的圖形可能揭示了一些數(shù)據(jù)差異或者數(shù)據(jù)的相關(guān)性。 不過(guò), 要得出存在這些差異和相關(guān)性的可靠結(jié)論, 還需要運(yùn)用統(tǒng)計(jì)的方法。 要對(duì)你的數(shù)據(jù)真正了解, 需要分析的技能, 以及專業(yè)的知識(shí)。 不要指望可視化能夠給你這些。 因此, 在進(jìn)行可視化項(xiàng)目的時(shí)候, 要調(diào)整客戶或者你的CEO的期望值。
工具及處理方式:
秘密七: 數(shù)據(jù)可視化不僅僅是編程
現(xiàn)在大量的可視化編程庫(kù)和教程使得普通的人員在進(jìn)行基于Web的可視化中, 也可以設(shè)計(jì)出高質(zhì)量的可視化產(chǎn)品。 然而, 要想真正設(shè)計(jì)一個(gè)能夠提供深入見(jiàn)解, 或者能夠清楚表達(dá)的可視化產(chǎn)品, 除了編程之外, 還需要很多其他的技能。 比如圖像設(shè)計(jì), 數(shù)據(jù)分析, 交互設(shè)計(jì), 以及對(duì)人們認(rèn)知的了解等待。 這些技能, 是那些可視化編程庫(kù)提供不了的。
不過(guò), 好消息是,如果你堅(jiān)持采用一些數(shù)據(jù)可視化的基本原則的話。
你也不需要對(duì)這些技能了解太多。對(duì)于初學(xué)者來(lái)說(shuō), 需要堅(jiān)持一些最基本的原則, 比如, 盡量使用柱狀圖, 不要把圓半徑設(shè)置按線性比例設(shè)定(編者: 在面積比較時(shí)會(huì)給用戶錯(cuò)誤理解), 設(shè)計(jì)要簡(jiǎn)單(不要用3D, 少用動(dòng)畫, 不要用陰影)等。 按照一些好的可視化樣本, 初學(xué)者也可以創(chuàng)造出好的可視化作品來(lái)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10