
數(shù)據(jù)可視化專家的七個秘密
數(shù)據(jù)可視化的道路上充滿了不可見的陷阱和迷宮,最近ClearStory Data的兩位數(shù)據(jù)可視化開發(fā)人員分享了他們總結(jié)出來的數(shù)據(jù)可視化開發(fā)的7個不宣之秘,普通開發(fā)者了解這些方法能提升視野,少走彎路。數(shù)據(jù)可視化, 特別是基于Web的數(shù)據(jù)可視化的時代已經(jīng)到來了。 類似JavaScript的可視化庫如D3.js, Raphaël, 以及Paper.js, 以及最新瀏覽器所支持的如Canvas和SVG, 以及使得那些過去只能由計算機專家和專業(yè)設計人員開發(fā)的復雜的可視化變得越來越簡單了。
數(shù)據(jù)可視化如今成為了很多網(wǎng)站項目的必備功能。 而類似于Platfora, DatameerClearStory Data以及Chartio等初創(chuàng)公司則可以利用基于瀏覽器的分析平臺融到數(shù)百萬美元的投資。
數(shù)據(jù)可視化是數(shù)據(jù)探索以及數(shù)據(jù)表現(xiàn)的重要方式, 然而, 對于數(shù)據(jù)可視化的開發(fā)者來說, 依然有很多挑戰(zhàn)要去面對。 這些迎接這些挑戰(zhàn)的方法, 則是很多專業(yè)的數(shù)據(jù)可視化開發(fā)者不愿意讓別人知道的秘密。 ClearStory Data的兩位數(shù)據(jù)可視化開發(fā)人員Nate Argrin和 Nick Rabinowitz 在 netmagzine.com上分享了他們總結(jié)出來的數(shù)據(jù)可視化開發(fā)的7個秘密以及在實踐中如何應對的方式。
秘密一: 現(xiàn)實中的數(shù)據(jù)往往很丑
大部分的數(shù)據(jù)可視化的教程, 都會讓你輕松地從一個原始數(shù)據(jù)集開始。 無論你是學習基本的柱狀圖還是力導向的網(wǎng)絡圖, 你的數(shù)據(jù)都是干凈的,經(jīng)過整理的數(shù)據(jù)。 這些完美的JSON或者CSV文件就像電視里的廚藝節(jié)目中的灶臺那樣干凈整潔。而實際上, 當你在處理現(xiàn)實中的真正的數(shù)據(jù)是, 你80%的時間得用來搜尋, 獲取, 載入, 清洗以及轉(zhuǎn)換你的數(shù)據(jù)。
這樣的過程, 有時候可以用自動化的工具來完成。 不過, 差不多任何需要針對兩個以上的數(shù)據(jù)集進行清洗的工作總會需要或多或少的人工的工作。有很多工具能夠把XLS文件轉(zhuǎn)化為XML的格式或者把時間戳轉(zhuǎn)換為其他日期格式。但是, 要想把一個公司的內(nèi)部使用的銷售類型與競爭對手進行比對, 或者對輸入錯誤進行檢查, 或者對不同的Encoding或者OCR產(chǎn)生出來的文字進行檢查時, 就只能靠手工來處理了。
工具及處理方式:
秘密二: 柱狀圖往往更好
和柱狀圖比起來, 氣泡圖可以在同樣的空間表現(xiàn)更多地數(shù)據(jù), 餅圖可以更清晰地表現(xiàn)整體和局部的關系, 樹狀圖能夠更好地表現(xiàn)分層的結(jié)構(gòu)。然而, 這些圖在簡單明了方面都無法與柱狀圖相比。
在考慮數(shù)據(jù)可視化設計方案時, 我們要問自己的第一個問題就是:“這個方案比柱狀圖好嗎?” 如果你需要在一個單一維度上可視化一個可量化的數(shù)據(jù)集,那么很少有別的方式能比得上柱狀圖。 類似的, 時間序列最好表現(xiàn)為線狀圖, 而散點圖一般用來表現(xiàn)兩個線性度量的相關性。 在數(shù)據(jù)可視化設計中, 使用這些從18世紀以來就一直在使用的圖風險最低。 而柱狀圖對于進行數(shù)據(jù)比較的可視化來說是最佳方式。 因為我們?nèi)搜圩盍晳T的比較方式就是將兩個東西并排比較。
關于柱狀圖優(yōu)先, 其實揭示了數(shù)據(jù)可視化中一個最大的秘密, 那就是, 那些最酷的可視化往往用處反而最小。 最求新奇以及美觀的可視化往往帶來一個問題,那就是數(shù)據(jù)的可理解問題。 很多柱狀圖的替代圖迫使人們用他們并不擅長的方式進行比較, 如比較面積, 角度, 色彩, 或者透明度等。 這些比較, 說好聽的, 是增加了比較的難度,說的嚴重一些, 可能會對數(shù)據(jù)進行扭曲, 導致使用者得出錯誤的結(jié)論。
工具及處理方式:
秘密三: 真實數(shù)據(jù)不可替代
對一個數(shù)據(jù)集進行清洗和格式化已經(jīng)很繁瑣了, 如果你需要設計一個基于多個數(shù)據(jù)集的可視化呢? 比如你需要把公司不同部門的數(shù)據(jù)進行可視化, 而這些部門各自有各自的數(shù)據(jù)庫, 而且你也沒有時間手工把每個數(shù)據(jù)集進行清洗。 這時候, 人們的第一想法可能是抓一些Demo的數(shù)據(jù)來進行可視化。 而且你的可視化庫里可能就有一些標準的樣本數(shù)據(jù)。
很不幸, 真實數(shù)據(jù)不可替代。 Demo數(shù)據(jù)一般遵循正態(tài)分布而且數(shù)據(jù)量有限。 是為了展示可視化用的。 而一個看上去完美的柱狀圖,并不能幫助你解決那些數(shù)據(jù)缺失, 異常數(shù)據(jù)或者現(xiàn)實中的真實問題。 如果你過度依賴Demo數(shù)據(jù), 當你用真實數(shù)據(jù)時, 你就會發(fā)現(xiàn)你的數(shù)據(jù)可視化設計并不能真正滿足你的數(shù)據(jù)分析或者數(shù)據(jù)表現(xiàn)的需求。
工具及處理方式:
秘密四:細節(jié)的地方才最頭痛
如上圖, 當你水平排列數(shù)據(jù)標識時, 數(shù)據(jù)標識會看不清, 如果旋轉(zhuǎn)90度, 數(shù)據(jù)標識是看清楚了, 不過又浪費了很大一塊空間。 選擇一個合適的數(shù)據(jù)標識格式對有些可視化來說是個解決方案, 不過也不是對所有方案都適用。
設計數(shù)據(jù)標識, 注釋或者橫軸縱軸通常都是在初始可視化后才考慮的。 不過這些元素對可視化來說非常重要, 而且可能會很困難或者需要大量時間才能把它們做好。 特別是在你無法事先預知你的數(shù)據(jù)的情況下。
在設計你的可視化的時候, 你需要留出相當部分的空間以便你可能需要添加標識只用, 通常要在你的圖周圍留出相對較大的空間。 橫縱軸上的標識要保證它們不相互覆蓋而且可讀。 如果必要的話, 可以將標識進行旋轉(zhuǎn)來增加可讀性。 如果有一塊空間標識過于集中, 而你又需要這些標識可讀, 你可以讓考慮把標識離它們所指的元素遠一些, 然后用連接線把標識和元素連起來。 另外一種方式就是把標識整合成一個組, 用標識工具提示的方式來進行可視化。 如果標識的文字過長, 可以考慮進行縮寫或者把超出的文字剪掉等方式。
類似的, 對圖的注釋也需要事先計劃好。 最簡單的方式就是在可視化中保留一部分區(qū)域來方便添加注釋。 不過, 這樣意味著你的圖所占的部分就會減小。 為了保留空間, 把注釋放在圖上的空白部分。 或者把注釋做成可拖拽, 這樣用戶可以把注釋移開來看注釋遮蓋的部分。
工具及處理方式:
秘密五:需要的時候才用動畫
可視化的設計者經(jīng)常希望能夠在最終設計上加上動畫。 動畫是一種連接數(shù)據(jù)和變化趨勢的非常有用的工具。 不過動畫也常常會導致對你的數(shù)據(jù)的錯誤理解。 你需要對它會如何影響你的最終效果進行評估, 而不是簡單地在最后加上動畫效果。 動畫最適合表現(xiàn)的, 是揭示數(shù)據(jù)如何在不同狀態(tài)下組合在一起, 如何隨時間變化或者是如何相互影響的等場合。
一般的設計原則是, 動畫要簡單, 可預測并且可以重新播放。 讓用戶能夠多次播放動畫, 可以讓他們看到動畫元素從哪里開始到哪里停止。 要避免不同元素在移動中互相覆蓋, 不要讓元素的運動不可預測。 對于復雜的動畫, 研究表明, 可以把動畫分解為幾個不同的階段,在每個階段暫停一會給用戶一些時間來體會。 這樣有助于提高用戶的理解。
工具及處理方式:
秘密六: 數(shù)據(jù)可視化不是分析
數(shù)據(jù)可視化可以產(chǎn)生一些分析結(jié)果, 不過需要指出的是, 可視化是一個輔助分析的工具, 而不是數(shù)據(jù)分析的替代, 它也不是統(tǒng)計的替代: 你的圖形可能揭示了一些數(shù)據(jù)差異或者數(shù)據(jù)的相關性。 不過, 要得出存在這些差異和相關性的可靠結(jié)論, 還需要運用統(tǒng)計的方法。 要對你的數(shù)據(jù)真正了解, 需要分析的技能, 以及專業(yè)的知識。 不要指望可視化能夠給你這些。 因此, 在進行可視化項目的時候, 要調(diào)整客戶或者你的CEO的期望值。
工具及處理方式:
秘密七: 數(shù)據(jù)可視化不僅僅是編程
現(xiàn)在大量的可視化編程庫和教程使得普通的人員在進行基于Web的可視化中, 也可以設計出高質(zhì)量的可視化產(chǎn)品。 然而, 要想真正設計一個能夠提供深入見解, 或者能夠清楚表達的可視化產(chǎn)品, 除了編程之外, 還需要很多其他的技能。 比如圖像設計, 數(shù)據(jù)分析, 交互設計, 以及對人們認知的了解等待。 這些技能, 是那些可視化編程庫提供不了的。
不過, 好消息是,如果你堅持采用一些數(shù)據(jù)可視化的基本原則的話。
你也不需要對這些技能了解太多。對于初學者來說, 需要堅持一些最基本的原則, 比如, 盡量使用柱狀圖, 不要把圓半徑設置按線性比例設定(編者: 在面積比較時會給用戶錯誤理解), 設計要簡單(不要用3D, 少用動畫, 不要用陰影)等。 按照一些好的可視化樣本, 初學者也可以創(chuàng)造出好的可視化作品來。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03