
數(shù)據(jù)可視化知識(shí)貼③:錯(cuò)綜復(fù)雜散點(diǎn)圖
散點(diǎn)圖,如果學(xué)過(guò)我們前面創(chuàng)意圖表系列的話(huà),這種圖表應(yīng)該非常熟悉了。
散點(diǎn)圖,在圖表界有萬(wàn)表之王的稱(chēng)號(hào)。
這可不是我隨便封的。
美國(guó)權(quán)威心理學(xué)專(zhuān)刊《Journal of the History of the Behavioral Sciences》(行為科學(xué)史雜志)在2005年一篇論文中如此評(píng)價(jià)散點(diǎn)圖:
“most versatile, polymorphic, and generally useful invention in the history of statistical graphics”這是信息圖表史上功能最多,形式多樣,應(yīng)用范圍極為廣闊的一個(gè)偉大發(fā)明!
散點(diǎn)圖能獲此評(píng)價(jià),絕對(duì)不是吹出來(lái)的。
正如它的名字一樣,散點(diǎn)圖,可以一堆紛亂如麻,看似無(wú)跡可尋的數(shù)據(jù)顯示出內(nèi)在的關(guān)系邏輯來(lái)。
散點(diǎn)圖已經(jīng)不僅僅是一個(gè)圖表了,它已經(jīng)演化為一個(gè)強(qiáng)大的分析工具,可以這么說(shuō),散點(diǎn)圖,就是為大數(shù)據(jù)而生的!
下面,還是讓我們一起回顧一下散點(diǎn)圖的前世今生吧。
認(rèn)識(shí)散點(diǎn)圖
散點(diǎn)圖,是繪制在X軸和Y軸坐標(biāo)系中,可以同時(shí)表述兩個(gè)變量的一組數(shù)據(jù)點(diǎn)。這些大量的數(shù)據(jù)點(diǎn)組合在一起,形成了一些形狀,揭示了數(shù)據(jù)背后的相關(guān)信息。
在這個(gè)散點(diǎn)圖中,就揭示了不同系列的產(chǎn)品中,銷(xiāo)售量與產(chǎn)品收入之間的關(guān)系模式。
說(shuō)起散點(diǎn)圖的來(lái)由,如果你讀過(guò)我們啟視錄系列前面幾篇的話(huà),一定會(huì)想到一個(gè)名字:William Playfair。這是信息圖史上一個(gè)神一般的存在,他將折線(xiàn)圖、餅圖還有條狀圖帶到了我們這個(gè)世界上。
可是,這一次你猜錯(cuò)了。
散點(diǎn)圖不是普萊費(fèi)爾發(fā)明的。
事實(shí)上,散點(diǎn)圖的出現(xiàn)如同它的名字一樣,散亂不堪,無(wú)法理出一個(gè)有序的線(xiàn)索出來(lái)。
其實(shí),對(duì)于散點(diǎn)數(shù)據(jù)的的視覺(jué)化應(yīng)用,由來(lái)已久。好幾百年以來(lái),人們一直將這些點(diǎn)放置在地圖,或者笛卡爾坐標(biāo)系中。后來(lái)人們逐漸意識(shí)到,當(dāng)這些數(shù)據(jù)以不同參數(shù),放置在直角坐標(biāo)系中,很多不為人知的故事會(huì)偷偷地浮現(xiàn)出來(lái)。于是,散點(diǎn)圖逐漸開(kāi)始流傳開(kāi)來(lái)。
所以只能這么說(shuō),散點(diǎn)圖,是廣大數(shù)據(jù)民工在長(zhǎng)期的生產(chǎn)實(shí)踐中,通過(guò)不斷的探索和研究,最終發(fā)明出來(lái)的。
而William Playfair爵士之所以會(huì)與這個(gè)偉大的發(fā)明擦肩而過(guò),主要是因?yàn)?,他發(fā)明的圖表都是基于時(shí)間序列的,而散點(diǎn)圖卻不再拘泥于時(shí)間這個(gè)基本的變量。
散點(diǎn)圖從一開(kāi)始的默默無(wú)聞,到最后轟動(dòng)科學(xué)界,直到最后加冕圖表之王,其實(shí)也就是百十年的事。但是通過(guò)散點(diǎn)圖帶來(lái)的很多偉大的發(fā)現(xiàn),則徹底改變了我們的世界觀,推動(dòng)了科學(xué)的發(fā)展。
1905年,丹麥科學(xué)家Danish astronomer Ejnar Hertzprung,在將一些恒星的亮度等級(jí)(絕對(duì)亮度}和他們的顏色(按光譜從藍(lán)白到紅色排列)進(jìn)行對(duì)比的時(shí)候,他注意到這其中似乎有著某些相關(guān)性。但是他一直沒(méi)有找到其中的奧秘。
直到1913年,美國(guó)天文學(xué)家Henry Norris Russell獨(dú)立發(fā)表論文,闡述了這個(gè)改變我們認(rèn)知宇宙的新發(fā)現(xiàn)。
沒(méi)錯(cuò),正是通過(guò)散點(diǎn)圖,他將恒星的按光譜和亮度兩個(gè)參數(shù)進(jìn)行排列分析后發(fā)現(xiàn),從高亮度低光譜(左上)到低亮度高光譜(右下)形成了一條明顯的趨勢(shì)線(xiàn),而在左上角,還有一團(tuán)比較密集的數(shù)據(jù)。
Henry意識(shí)到,這條趨勢(shì)線(xiàn),或許正揭示了恒星從藍(lán)白色的新星到紅色的老星的一個(gè)演變的過(guò)程,也就是說(shuō),他發(fā)現(xiàn)了恒星一生的秘密。而左上角的那些數(shù)據(jù),則是由一些暮年的紅巨星所集合而成。
這就是后來(lái)我們所熟知的恒星的一生:原恒星—-主序星—-紅巨星—-白矮星—-黑矮星
這是重新繪制的由2200顆恒星數(shù)據(jù)所組成的Henry Norris Russell散點(diǎn)圖,我們的太陽(yáng)目前大致位于光序1(豎軸)色譜1.0左右的位置上,主序星階段,正值壯年!
散點(diǎn)圖的應(yīng)用
顯而易見(jiàn),散點(diǎn)圖是一種應(yīng)用非常廣泛的圖表,而且具有其他圖表所沒(méi)有的獨(dú)特優(yōu)勢(shì)。
不像其他圖表的單一特性,散點(diǎn)圖不光可以顯示趨勢(shì),還能顯示集群的形狀,以及在數(shù)據(jù)云團(tuán)中各數(shù)據(jù)點(diǎn)的關(guān)系——這在大數(shù)據(jù)應(yīng)用中是極為重要的一點(diǎn)。
無(wú)論是探尋肺活量與自由潛水的深度的關(guān)系,還是研究地震強(qiáng)度與持續(xù)時(shí)間之間的關(guān)聯(lián),或者對(duì)比不同部門(mén)利潤(rùn)與支出的數(shù)據(jù),我們都可以用散點(diǎn)圖來(lái)進(jìn)行不同方位解讀。
下面就是散點(diǎn)圖所經(jīng)常表現(xiàn)出來(lái)的幾種趨勢(shì):
這里要注意的是,并不是所有的相關(guān)關(guān)系都是簡(jiǎn)單的因果關(guān)系,要注意其他變量的存在以及對(duì)數(shù)據(jù)的影響。
散點(diǎn)圖的最佳設(shè)計(jì)應(yīng)用
對(duì)于散點(diǎn)圖,我們現(xiàn)在已經(jīng)有了大致的一些了解,現(xiàn)在讓我們來(lái)看看散點(diǎn)圖設(shè)計(jì)中的一些基本原則吧
這個(gè)應(yīng)該是我們反復(fù)強(qiáng)調(diào)的了,Y軸從非零開(kāi)始的話(huà)會(huì)截?cái)鄶?shù)據(jù),造成誤讀。
通過(guò)改變數(shù)據(jù)點(diǎn)的大小和顏色,來(lái)表示數(shù)據(jù)值的區(qū)別
趨勢(shì)線(xiàn)可以用來(lái)顯示數(shù)據(jù)變化的趨勢(shì)
太多趨勢(shì)線(xiàn),反而攪亂視線(xiàn)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10