
一個優(yōu)雅地探索相關性的新可視化方法
一個古老的詛咒一直縈繞著數據分析:我們用來改進模型的變量越多,那么我們需要的數據就會出現指數級的增長。不過,我們通過關注重要的變量就可以避免欠擬合以及降低收集大量數據的需求。減少輸入變量的一種方法是鑒別其對輸出變量的影響。變量的相關性有助于這種鑒別:如果相關性較強,那么輸入變量的一個顯著變化將會導致輸出變量同等程度的變化。我們要選擇跟模型的輸出變量強相關的輸入變量,而不是使用所有的可用變量。
然而當輸入變量之間存在強相關性時,這里就會出現一個陷阱。假設想預測一下父母的教育水平,我們發(fā)現在我們的數據集中的鄉(xiāng)間俱樂部會員資格、家庭汽車數量以及度假費用之間有很強的相關性。擁有所有這些奢侈品的家庭都有相同的特征:家庭富有。所以真正的根本關聯(lián)是受過高等教育的父母通常有較高的收入。我們可以使用家庭收入來預測父母的教育水平,或者使用上面的變量數組。我們稱這種相關為“組間相關”
組間相關是解釋性變量之間的相關性。添加足夠多的變量時,會引起維度災難并需要大量的數據。所以有時從一組組間相關的輸入變量中選擇一個代表變量是有好處的。在本文中我們會利用新創(chuàng)造的可視化方法“太陽系相關圖”來探討相關性和組間相關性,并展示如何輕松地創(chuàng)建一個你自己的太陽系相關圖。
把太陽系相關圖應用于房價數據
我們可以使用協(xié)方差和系數矩陣將太陽系相關圖應用于房價數據。盡管這些工具同樣有效,但很難理解。幸運的是這些矩陣可以通過精美簡潔的可視化展示來探索相關性。
太陽系相關圖是為了解決以下兩個需求而設計的:
每個輸入變量與輸出變量的相關性的可視化展示
輸入變量的組間相關性
我們來探索一個標準數據集并生成其太陽系相關圖??▋然仿〈髮W收集了上世紀九十年代的波士頓房價數據,它是UCI(加利福尼亞大學爾灣分校)機器學習資源庫中可免費訪問的數據集之一。我們使用這個數據集的目標是利用數據集中的幾個輸入變量來預測輸出變量——房屋價值(MEDV)。
首先我們生成一個相關矩陣:
圖1 來源:Stefan Zapf和Christopher Kraushaar
你可以通過搜索MEDV行和TAX列交叉的單元格得到輸出變量(房屋價值)和輸入變量(稅收)的相關性。為了探討組間相關性,你需要找到絕對值大于某個值(比如0.8)的所有單元格。在復雜的數據集中,搞懂大量的單元格數值需要很長的時間。而太陽系相關圖可以幫助你理解這些數值。我們會先從輸入變量與輸出變量的相關性開始。以下是用太陽系相關圖表示的房價信息概要:
圖2 來源:Stefan Zapf和Christopher Kraushaar
輸出變量MEDV(波士頓的房價)是太陽系中心的太陽。太陽周圍的每一圈都是軌道。行星是輸入變量,衛(wèi)星是與它圍繞旋轉的行星有相互關聯(lián)的輸入變量。軌道越近的行星跟太陽的相關性越強。例如第二個軌道是代表較低收入鄰居(LSTAT)的行星、第三個軌道的行星代表房屋房間的數量(RM)、第四個軌道的行星代表了房屋的大小(PTRATIO)。房屋面積、房間數量以及居民的潛在購買力很大程度上決定了房屋的價值。我們并不是想選一個會讓你吃驚的例子。恰恰相反,變量的常識分析會有助于我們認識到太陽系相關圖的有效性。
相關性的強度取決于Pearson相關系數的絕對值大小。第一個軌道行星的相關系數絕對值為0.9-1.0。第二軌道行星的相關系數絕對值為0.8-0.9,依此類推。另一個指示是行星的顏色和大小。太陽是一個大圓圈,行星是中等大小的圓圈而衛(wèi)星是小圓圈。
探索組間相關的輸入變量
你可能注意到太陽系里沒有太多行星有衛(wèi)星。我們將多變量組間相關的閾值設置為默認值,即Pearson相關系數必須大于0.8。通常強相關性要Pearson系數高于0.5。設置默認值是非常謹慎的,但您可以在相關性分析中調整該數字。如果我們有相互關聯(lián)的變量,那么跟輸出變量最相關的輸入變量作為行星,而其他變量則是它的衛(wèi)星。這是為了確保行星是最能解釋輸出變量的輸入變量。
在我們的例子中,只有兩個變量是強烈地相關以至于幾乎相同。并不是每個太陽系里都只有很少的衛(wèi)星。在大數據環(huán)境中,太陽系相關圖中通常有更多的變量(且附帶有許多衛(wèi)星)。隨著變量數量的增加,太陽系相關圖會變得更加重要。
現在我們來看一下輸入變量之間的相互關聯(lián)問題。在第六個綠色的軌道上有一個行星附帶一個衛(wèi)星。行星代表的變量是房地產稅率(TAX),衛(wèi)星代表的是到達高速公路的便利性(RAD)。由于住宅和商業(yè)地產的稅率不同,行星變量可能是個區(qū)分商業(yè)區(qū)和住宅區(qū)的指標。企業(yè)通常希望能快速進入高速公路,而私人住宅房主通常希望避免高速公路的噪音和空氣污染。一個街區(qū)的商業(yè)或住宅性質很可能是這些變量相互關聯(lián)的根本原因。如果是這種情況,那么就需要保留其中一個最能解釋對房價影響的變量。
謹慎的意思是符合程序的。數據分析不是機械性或確定性的過程。例如即使是富裕的家庭可能也不會購買跑車,因為他們關心環(huán)境污染。因此當我們試圖預測家庭財富時,我們可能會觀測到跑車變量在一個偏遠的軌道上,這表明跑車不是財富的良好指標。但是我們知道擁有跑車是財富的一個很好的指標。沒有選擇跑車作為財富的指標是因為它是一個偏遠的行星,這肯定是錯誤的策略,因為一個復雜的模型可以調節(jié)其關于家庭對環(huán)境的態(tài)度的影響。相關性是一個很有用的工具,但常常需要權衡結果和你的常識,并相信你的直覺,這其中包含大量的假設檢驗和貝葉斯分析。
在探索性數據分析(EDA)和建模時,太陽系相關圖可以幫助我們通過視覺方式理解相關性。對相關性的理解可以作為我們選擇建模變量優(yōu)先級的基礎:低軌道的行星是最好的候選項,下一個是衛(wèi)星,最后是最外面軌道的行星。
正面和負面的標簽
到目前為止,我們已經解釋了相關性的強度和重要性。然而,我們也想知道一個相關是正相關還是負相關 正相關意味著一個變量增加時另一個也增加。這是“越多越好”的相關性。我們先來看一下變量RM,它是房間的平均數量。房子的房間越多房價就越高,這表明房子更大以及房子空間更容易分隔。當我們有十個房間而不是兩個房間時,房子可能會有更高的價格。這是正相關的本質。你可以看到MEDV和RM之間的為相關性為正,因為標簽RM為綠色。
負相關意味著一個變量增加時另一個變量會降低:“有時少即是多”變量。犯罪率越低,我們的房子的價格會越高,所以我們猜想犯罪的標簽是紅色的。我們的猜想在太陽系相關圖中被證明是正確的。
通過太陽系相關圖,我們可以一目了然地看到強度、相關性和相關性的類型。
如何簡單地創(chuàng)建一個太陽系相關圖
太陽系相關圖的創(chuàng)建跟烘烤冷凍曲奇餅面團一樣簡單。 它是一個可以使用pip安裝的Python模塊:pip install solar-correlation-map。 然后,嘗試從我們的GitHub資源上下載jedi.csv文件。這個文件是自帶表頭的標準csv文件:
圖3 來源:Stefan Zapf和Christopher Kraushaar
這個數據集是關于絕地武士的變量數據:
JEDI:變量越大,絕地武士就越靠近光明面
GRAMMAR:越高的值表示一個絕地武士有越好的語法
GREENESS:變量越高,皮膚越綠
IMPLANTS:體內植入物的數量
ELEGEN:原力者可以通過的電能的兆焦耳量
MIDI-CHLORIANS:血液中的纖原體數量
FRIENDS:朋友的數量
請注意在這個名單中的所有人的纖原體數量都是相同的。看來我們選擇了相當強大的原力使用者。
然后使用以下命令在你下載的jedi-csv文件所在的目錄中運行太陽系相關圖:
winterfell:solar-correlation-map daebwae$ python -m solar_correlation_map jedi.csv JEDI
此時在你的屏幕上,會出現一個包含太陽系相關圖的窗口:
圖4 來源:Stefan Zapf和Christopher Kraushaar
語法(GRAMMAR)在一個很近的軌道上且標簽是紅色的,所以語法(GRAMMAR)和絕地武士(Jedi)之間有很強的負相關關系。語法越好這個人就越不可能是個絕地武士。 另外綠色(GREENESS)與不良語法(GRAMMA)相關聯(lián),所以兩者都可能跟潛在的相同因素相關聯(lián)。記住所有人都有非常相似的纖原體數量(MIDI-CHLORIANS)。因此它不可能告訴我們有關原力者是否是絕地戰(zhàn)士的任何事情。這就是為什么纖原體數量(MIDI-CHLORIANS)在最外面的軌道。
三個步驟實現一個新的可視化
我們已經介紹了太陽系相關圖,讓我們回顧一下這張圖。我們從數據分析問題出發(fā),找出對輸出變量影響最大的輸入變量。我們可以用相關矩陣的工具來分析這個問題。通過視覺總結這個問題有助于找到相互關聯(lián)和最有影響力的輸入變量。由于可視化跟信息傳達是息息相關的,所以我們選擇了廣大讀者都熟悉的太陽系做類比。
以下是實現一個新的可視化的三個步驟:
識別數據分析中的問題
找到解決這個問題的分析工具
使用視覺類比來探索和展現你的結果
古往今來講故事的人都具有創(chuàng)造性和勇氣,數據分析往往就像講故事一樣。同樣地,數據科學家可以追隨過去講故事的人的足跡,大膽地探索新的方式來向讀者傳達數據的故事。
在探索性數據分析中,我們的可視化工具箱在溝通和說服方面發(fā)揮著重要的作用。本文介紹了太陽系相關圖,并把它作為對這個過程的一個高級抽象,來創(chuàng)建可以解決實際探索性數據分析問題的新型可視化方法。當你在講述數據的故事時,你可以探索讀者未曾看過的新奇的可視化世界。讓你的新奇創(chuàng)意吸引讀者并幫助擴展數據科學家的視覺類比方法
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03