
一個(gè)優(yōu)雅地探索相關(guān)性的新可視化方法
一個(gè)古老的詛咒一直縈繞著數(shù)據(jù)分析:我們用來改進(jìn)模型的變量越多,那么我們需要的數(shù)據(jù)就會(huì)出現(xiàn)指數(shù)級(jí)的增長。不過,我們通過關(guān)注重要的變量就可以避免欠擬合以及降低收集大量數(shù)據(jù)的需求。減少輸入變量的一種方法是鑒別其對(duì)輸出變量的影響。變量的相關(guān)性有助于這種鑒別:如果相關(guān)性較強(qiáng),那么輸入變量的一個(gè)顯著變化將會(huì)導(dǎo)致輸出變量同等程度的變化。我們要選擇跟模型的輸出變量強(qiáng)相關(guān)的輸入變量,而不是使用所有的可用變量。
然而當(dāng)輸入變量之間存在強(qiáng)相關(guān)性時(shí),這里就會(huì)出現(xiàn)一個(gè)陷阱。假設(shè)想預(yù)測一下父母的教育水平,我們發(fā)現(xiàn)在我們的數(shù)據(jù)集中的鄉(xiāng)間俱樂部會(huì)員資格、家庭汽車數(shù)量以及度假費(fèi)用之間有很強(qiáng)的相關(guān)性。擁有所有這些奢侈品的家庭都有相同的特征:家庭富有。所以真正的根本關(guān)聯(lián)是受過高等教育的父母通常有較高的收入。我們可以使用家庭收入來預(yù)測父母的教育水平,或者使用上面的變量數(shù)組。我們稱這種相關(guān)為“組間相關(guān)”
組間相關(guān)是解釋性變量之間的相關(guān)性。添加足夠多的變量時(shí),會(huì)引起維度災(zāi)難并需要大量的數(shù)據(jù)。所以有時(shí)從一組組間相關(guān)的輸入變量中選擇一個(gè)代表變量是有好處的。在本文中我們會(huì)利用新創(chuàng)造的可視化方法“太陽系相關(guān)圖”來探討相關(guān)性和組間相關(guān)性,并展示如何輕松地創(chuàng)建一個(gè)你自己的太陽系相關(guān)圖。
把太陽系相關(guān)圖應(yīng)用于房價(jià)數(shù)據(jù)
我們可以使用協(xié)方差和系數(shù)矩陣將太陽系相關(guān)圖應(yīng)用于房價(jià)數(shù)據(jù)。盡管這些工具同樣有效,但很難理解。幸運(yùn)的是這些矩陣可以通過精美簡潔的可視化展示來探索相關(guān)性。
太陽系相關(guān)圖是為了解決以下兩個(gè)需求而設(shè)計(jì)的:
每個(gè)輸入變量與輸出變量的相關(guān)性的可視化展示
輸入變量的組間相關(guān)性
我們來探索一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集并生成其太陽系相關(guān)圖。卡內(nèi)基梅隆大學(xué)收集了上世紀(jì)九十年代的波士頓房價(jià)數(shù)據(jù),它是UCI(加利福尼亞大學(xué)爾灣分校)機(jī)器學(xué)習(xí)資源庫中可免費(fèi)訪問的數(shù)據(jù)集之一。我們使用這個(gè)數(shù)據(jù)集的目標(biāo)是利用數(shù)據(jù)集中的幾個(gè)輸入變量來預(yù)測輸出變量——房屋價(jià)值(MEDV)。
首先我們生成一個(gè)相關(guān)矩陣:
圖1 來源:Stefan Zapf和Christopher Kraushaar
你可以通過搜索MEDV行和TAX列交叉的單元格得到輸出變量(房屋價(jià)值)和輸入變量(稅收)的相關(guān)性。為了探討組間相關(guān)性,你需要找到絕對(duì)值大于某個(gè)值(比如0.8)的所有單元格。在復(fù)雜的數(shù)據(jù)集中,搞懂大量的單元格數(shù)值需要很長的時(shí)間。而太陽系相關(guān)圖可以幫助你理解這些數(shù)值。我們會(huì)先從輸入變量與輸出變量的相關(guān)性開始。以下是用太陽系相關(guān)圖表示的房價(jià)信息概要:
圖2 來源:Stefan Zapf和Christopher Kraushaar
輸出變量MEDV(波士頓的房價(jià))是太陽系中心的太陽。太陽周圍的每一圈都是軌道。行星是輸入變量,衛(wèi)星是與它圍繞旋轉(zhuǎn)的行星有相互關(guān)聯(lián)的輸入變量。軌道越近的行星跟太陽的相關(guān)性越強(qiáng)。例如第二個(gè)軌道是代表較低收入鄰居(LSTAT)的行星、第三個(gè)軌道的行星代表房屋房間的數(shù)量(RM)、第四個(gè)軌道的行星代表了房屋的大小(PTRATIO)。房屋面積、房間數(shù)量以及居民的潛在購買力很大程度上決定了房屋的價(jià)值。我們并不是想選一個(gè)會(huì)讓你吃驚的例子。恰恰相反,變量的常識(shí)分析會(huì)有助于我們認(rèn)識(shí)到太陽系相關(guān)圖的有效性。
相關(guān)性的強(qiáng)度取決于Pearson相關(guān)系數(shù)的絕對(duì)值大小。第一個(gè)軌道行星的相關(guān)系數(shù)絕對(duì)值為0.9-1.0。第二軌道行星的相關(guān)系數(shù)絕對(duì)值為0.8-0.9,依此類推。另一個(gè)指示是行星的顏色和大小。太陽是一個(gè)大圓圈,行星是中等大小的圓圈而衛(wèi)星是小圓圈。
探索組間相關(guān)的輸入變量
你可能注意到太陽系里沒有太多行星有衛(wèi)星。我們將多變量組間相關(guān)的閾值設(shè)置為默認(rèn)值,即Pearson相關(guān)系數(shù)必須大于0.8。通常強(qiáng)相關(guān)性要Pearson系數(shù)高于0.5。設(shè)置默認(rèn)值是非常謹(jǐn)慎的,但您可以在相關(guān)性分析中調(diào)整該數(shù)字。如果我們有相互關(guān)聯(lián)的變量,那么跟輸出變量最相關(guān)的輸入變量作為行星,而其他變量則是它的衛(wèi)星。這是為了確保行星是最能解釋輸出變量的輸入變量。
在我們的例子中,只有兩個(gè)變量是強(qiáng)烈地相關(guān)以至于幾乎相同。并不是每個(gè)太陽系里都只有很少的衛(wèi)星。在大數(shù)據(jù)環(huán)境中,太陽系相關(guān)圖中通常有更多的變量(且附帶有許多衛(wèi)星)。隨著變量數(shù)量的增加,太陽系相關(guān)圖會(huì)變得更加重要。
現(xiàn)在我們來看一下輸入變量之間的相互關(guān)聯(lián)問題。在第六個(gè)綠色的軌道上有一個(gè)行星附帶一個(gè)衛(wèi)星。行星代表的變量是房地產(chǎn)稅率(TAX),衛(wèi)星代表的是到達(dá)高速公路的便利性(RAD)。由于住宅和商業(yè)地產(chǎn)的稅率不同,行星變量可能是個(gè)區(qū)分商業(yè)區(qū)和住宅區(qū)的指標(biāo)。企業(yè)通常希望能快速進(jìn)入高速公路,而私人住宅房主通常希望避免高速公路的噪音和空氣污染。一個(gè)街區(qū)的商業(yè)或住宅性質(zhì)很可能是這些變量相互關(guān)聯(lián)的根本原因。如果是這種情況,那么就需要保留其中一個(gè)最能解釋對(duì)房價(jià)影響的變量。
謹(jǐn)慎的意思是符合程序的。數(shù)據(jù)分析不是機(jī)械性或確定性的過程。例如即使是富裕的家庭可能也不會(huì)購買跑車,因?yàn)樗麄冴P(guān)心環(huán)境污染。因此當(dāng)我們?cè)噲D預(yù)測家庭財(cái)富時(shí),我們可能會(huì)觀測到跑車變量在一個(gè)偏遠(yuǎn)的軌道上,這表明跑車不是財(cái)富的良好指標(biāo)。但是我們知道擁有跑車是財(cái)富的一個(gè)很好的指標(biāo)。沒有選擇跑車作為財(cái)富的指標(biāo)是因?yàn)樗且粋€(gè)偏遠(yuǎn)的行星,這肯定是錯(cuò)誤的策略,因?yàn)橐粋€(gè)復(fù)雜的模型可以調(diào)節(jié)其關(guān)于家庭對(duì)環(huán)境的態(tài)度的影響。相關(guān)性是一個(gè)很有用的工具,但常常需要權(quán)衡結(jié)果和你的常識(shí),并相信你的直覺,這其中包含大量的假設(shè)檢驗(yàn)和貝葉斯分析。
在探索性數(shù)據(jù)分析(EDA)和建模時(shí),太陽系相關(guān)圖可以幫助我們通過視覺方式理解相關(guān)性。對(duì)相關(guān)性的理解可以作為我們選擇建模變量優(yōu)先級(jí)的基礎(chǔ):低軌道的行星是最好的候選項(xiàng),下一個(gè)是衛(wèi)星,最后是最外面軌道的行星。
正面和負(fù)面的標(biāo)簽
到目前為止,我們已經(jīng)解釋了相關(guān)性的強(qiáng)度和重要性。然而,我們也想知道一個(gè)相關(guān)是正相關(guān)還是負(fù)相關(guān) 正相關(guān)意味著一個(gè)變量增加時(shí)另一個(gè)也增加。這是“越多越好”的相關(guān)性。我們先來看一下變量RM,它是房間的平均數(shù)量。房子的房間越多房價(jià)就越高,這表明房子更大以及房子空間更容易分隔。當(dāng)我們有十個(gè)房間而不是兩個(gè)房間時(shí),房子可能會(huì)有更高的價(jià)格。這是正相關(guān)的本質(zhì)。你可以看到MEDV和RM之間的為相關(guān)性為正,因?yàn)闃?biāo)簽RM為綠色。
負(fù)相關(guān)意味著一個(gè)變量增加時(shí)另一個(gè)變量會(huì)降低:“有時(shí)少即是多”變量。犯罪率越低,我們的房子的價(jià)格會(huì)越高,所以我們猜想犯罪的標(biāo)簽是紅色的。我們的猜想在太陽系相關(guān)圖中被證明是正確的。
通過太陽系相關(guān)圖,我們可以一目了然地看到強(qiáng)度、相關(guān)性和相關(guān)性的類型。
如何簡單地創(chuàng)建一個(gè)太陽系相關(guān)圖
太陽系相關(guān)圖的創(chuàng)建跟烘烤冷凍曲奇餅面團(tuán)一樣簡單。 它是一個(gè)可以使用pip安裝的Python模塊:pip install solar-correlation-map。 然后,嘗試從我們的GitHub資源上下載jedi.csv文件。這個(gè)文件是自帶表頭的標(biāo)準(zhǔn)csv文件:
圖3 來源:Stefan Zapf和Christopher Kraushaar
這個(gè)數(shù)據(jù)集是關(guān)于絕地武士的變量數(shù)據(jù):
JEDI:變量越大,絕地武士就越靠近光明面
GRAMMAR:越高的值表示一個(gè)絕地武士有越好的語法
GREENESS:變量越高,皮膚越綠
IMPLANTS:體內(nèi)植入物的數(shù)量
ELEGEN:原力者可以通過的電能的兆焦耳量
MIDI-CHLORIANS:血液中的纖原體數(shù)量
FRIENDS:朋友的數(shù)量
請(qǐng)注意在這個(gè)名單中的所有人的纖原體數(shù)量都是相同的??磥砦覀冞x擇了相當(dāng)強(qiáng)大的原力使用者。
然后使用以下命令在你下載的jedi-csv文件所在的目錄中運(yùn)行太陽系相關(guān)圖:
winterfell:solar-correlation-map daebwae$ python -m solar_correlation_map jedi.csv JEDI
此時(shí)在你的屏幕上,會(huì)出現(xiàn)一個(gè)包含太陽系相關(guān)圖的窗口:
圖4 來源:Stefan Zapf和Christopher Kraushaar
語法(GRAMMAR)在一個(gè)很近的軌道上且標(biāo)簽是紅色的,所以語法(GRAMMAR)和絕地武士(Jedi)之間有很強(qiáng)的負(fù)相關(guān)關(guān)系。語法越好這個(gè)人就越不可能是個(gè)絕地武士。 另外綠色(GREENESS)與不良語法(GRAMMA)相關(guān)聯(lián),所以兩者都可能跟潛在的相同因素相關(guān)聯(lián)。記住所有人都有非常相似的纖原體數(shù)量(MIDI-CHLORIANS)。因此它不可能告訴我們有關(guān)原力者是否是絕地戰(zhàn)士的任何事情。這就是為什么纖原體數(shù)量(MIDI-CHLORIANS)在最外面的軌道。
三個(gè)步驟實(shí)現(xiàn)一個(gè)新的可視化
我們已經(jīng)介紹了太陽系相關(guān)圖,讓我們回顧一下這張圖。我們從數(shù)據(jù)分析問題出發(fā),找出對(duì)輸出變量影響最大的輸入變量。我們可以用相關(guān)矩陣的工具來分析這個(gè)問題。通過視覺總結(jié)這個(gè)問題有助于找到相互關(guān)聯(lián)和最有影響力的輸入變量。由于可視化跟信息傳達(dá)是息息相關(guān)的,所以我們選擇了廣大讀者都熟悉的太陽系做類比。
以下是實(shí)現(xiàn)一個(gè)新的可視化的三個(gè)步驟:
識(shí)別數(shù)據(jù)分析中的問題
找到解決這個(gè)問題的分析工具
使用視覺類比來探索和展現(xiàn)你的結(jié)果
古往今來講故事的人都具有創(chuàng)造性和勇氣,數(shù)據(jù)分析往往就像講故事一樣。同樣地,數(shù)據(jù)科學(xué)家可以追隨過去講故事的人的足跡,大膽地探索新的方式來向讀者傳達(dá)數(shù)據(jù)的故事。
在探索性數(shù)據(jù)分析中,我們的可視化工具箱在溝通和說服方面發(fā)揮著重要的作用。本文介紹了太陽系相關(guān)圖,并把它作為對(duì)這個(gè)過程的一個(gè)高級(jí)抽象,來創(chuàng)建可以解決實(shí)際探索性數(shù)據(jù)分析問題的新型可視化方法。當(dāng)你在講述數(shù)據(jù)的故事時(shí),你可以探索讀者未曾看過的新奇的可視化世界。讓你的新奇創(chuàng)意吸引讀者并幫助擴(kuò)展數(shù)據(jù)科學(xué)家的視覺類比方法
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10