
數(shù)據(jù)挖掘實戰(zhàn)訓練
問題:如果研究的變量為連續(xù)變量,且多種因素對它有影響,本研究共分為四組,并且組間AGE、BMI、BP等差異均具有統(tǒng)計學意義,應該如何校正AGE、BMI、BP等?
這里:
Y是連續(xù)性變量,我們假定基本符合正態(tài)分布。
X是四個組別,設X=0、1、2、3,分別表示四組。
目的是要比較四組之間有沒有差異,但要考慮到組間AGE、BMI、BP等不同對Y的影響。
做數(shù)據(jù)分析好比打乒乓球,多數(shù)人是自己摸索,沒有專業(yè)教練指導,接發(fā)球等動作是自己摸索出來一套野路子,常常一個球打好了,也不知道是怎么打好的,下一個就打不出來了,不能重復,因為不知道什么是規(guī)范的動作要領,打到一定水平后也無法再提高。而那些從小就經(jīng)過專業(yè)訓練出來的則完全不一樣,因為動作規(guī)范,所以技術(shù)水平提高快。
象上面這個問題,就有業(yè)余選手與專業(yè)選手兩種打法。先看看業(yè)余選手的通常打法:
1)先做方差分析看四組之間差別有沒有顯著性,如果有顯著性,考慮組間比較,看是哪兩組間有顯著差別。
2)考慮其它因素的影響,用逐步回歸的方法建立一個多元模型,初始模型為:Y=X+AGE+BMI+BP+…,最后出來一個最終模型,如Y=X+BMI,最后結(jié)論是X的組間差別有意義,另外BMI也是Y的一個危險因素。
3)業(yè)余段位高一點的會把X生成4個指示變量,用X0表示X=0,X1表示X=1, X2表示X=2, X1表示X=3,然后以X=0組為參照,把X1、X2、X3放入模型中,這樣初始模型變?yōu)椋篩=X1+X2+X3+AGE+BMI+BP+…,最后出來一個模型可能是Y=X2+X3+BMI。結(jié)論是X=2與X=3組與X=0組差別有意義,另外BMI也是Y的一個危險因素。
專業(yè)的打法路子是什么樣的呢?
首先專業(yè)選手使用的球拍就比較講究。雖然鄧亞萍可以用木鍋鏟當球拍與人打球,但那是打著玩的,正式上場比賽(發(fā)論文)必會拿著她最好用的球拍。這里對我來說最好用的球拍是EmpowerStats(易侕統(tǒng)計)軟件,下面我就用易侕軟件演示一下對這個問題的分析思路與操作規(guī)范:
第一步
先把數(shù)據(jù)整理好,這個就不多說了,變量名要用英文的,數(shù)據(jù)要數(shù)字化,如X編碼成0、1、2、3,性別可以是0、1(分別表示男、女),數(shù)據(jù)最好存成制表符分隔的文本文件。
第二步
打開易侕統(tǒng)計,給出數(shù)據(jù)文件名,易侕讀取數(shù)據(jù)文件后自動給出變量清單與每個變量的分布,如下圖示,這時候你就可以非常方便地查看每個變量的分布了,如Y、AGE、BMI、BP等連續(xù)性變量的分布形狀、最大值、最小值、百分位數(shù)、均數(shù)、標準差等,X等分類型變量每組的觀察數(shù)及其百分比,這些基本信息一下子就盡收眼底了。
可以看出“易侕”自動識別變量類型(分類型或連續(xù)性),根據(jù)變量類型做相應的統(tǒng)計描述,并將其分布用非常簡明的方式呈現(xiàn)出來。也就是說“易侕”這個球拍可以自動發(fā)出各種旋球,一個回合下來,對方吃不吃旋球,吃什么樣的旋球,你一下就摸清了。
第三步
用“數(shù)據(jù)分析”菜單下的“掃描關聯(lián)關系”模塊,把Y拖入(或雙擊)結(jié)果變量框內(nèi),如圖所示:
易侕自動掃描數(shù)據(jù)中哪些變量與Y有關,給出如下圖的圖表結(jié)果。
這個時候做的是單因素分析,看每個變量與Y的關系,沒有考慮其它因素的影響,如果你確定哪個(或幾個)變量,如AGE,對Y有影響,你可以把AGE放到調(diào)整變量里,這樣看的就是看在調(diào)整了AGE的情況下,其余每個變量對Y有沒有影響。
易侕在分析連續(xù)性變量如BMI與Y有沒有關系時,會自動考慮到BMI與Y的關系可能不是線性的變化關系,因此在做了直線回歸分析的同時,還會自動做平滑曲線擬合,以展現(xiàn)Y隨BMI的變化曲線,幫助我們判斷兩者之間是什么樣的關系。
在分析分類變量如X與Y的關系時,自動生成指示變量放入模型,把X=1、2、3組與0組比較,呈現(xiàn)三個回歸系數(shù)(分別表示每組與X=0組相比Y的差值)及其95%可信區(qū)間與P值。這個回歸系數(shù)的大小很重要,可以幫助我們判斷是否可以進行組間合并,X=0組是參照組,相當于其回歸系數(shù)是0,如果X=1的回歸系數(shù)與0接近且不顯著,也就是說X=1組與X=0組沒有差別,后面的分析就可以考慮把這兩組合并為一組,同理如果X2與X3組回歸系數(shù)接近,也可以考慮把它們合并,這樣一來原來四組之間的比較,就可能合并成兩組(或三組)之間的比較,合并的目的是使比較組的樣本量增加,提高檢驗效率,原來只是接近顯著的差別就可能變得顯著了。如果不能合并,看X1、X2、X3的回歸系數(shù)的相對大小,如果有等級關系,就可以考慮把X當成等級變量,直接把X放入模型。必要時要對X進行重新編碼,如回歸系數(shù)是X1<X3<X2,相鄰的差值基本相等,就可以把原來的X=3與X=2互換一下,用易侕的“變量操作”菜單下的“分類變量取值重編碼”功能很容易實現(xiàn)。把X直接放入模型得出的回歸系數(shù)就表示X每增加一個等級Y變化多少,這樣模型用到的參數(shù)少了2個,檢驗效率也就提高了。
這下我們可以看到“易侕”這個球拍還會自動拉出弧圈來。這個回合下來,你對數(shù)據(jù)內(nèi)部的關聯(lián)關系就有了一個輪廓性的了解。至少你知道了X與Y表面上看有沒有關系? 是什么樣的關系? 還有哪些因素與Y有什么樣的關系了?
也許你會問,這個過程只是單因素的分析,沒有考慮組間諸如AGE、BMI、BP的影響,得出來的X1、X2、X3的回歸系數(shù)不一定可靠,這時候根據(jù)它們的大小決定合并分組(或按等級變量來處理)是否過早,因為以后在調(diào)整了AGE、BMI、BP這些因素的影響后,它們可能就不是現(xiàn)在這樣的相對大小了,可能要重新合并。這個考慮完全正確,這相當于你拉出了一個弧圈,對方又拉回來了,你就多拉幾個回合(調(diào)整其它可能的影響因素)看看,再不行就改著削回去,保持用原來的三個指示變量。
順便提一句:如果X是個連續(xù)性的變量,Y是否隨X直線變化呢?有沒有閾值效應或飽和效應呢?閾值效應即當X達到某點后,X增加Y開始發(fā)生變化;飽和效應指當X達到某點后,X增加Y不再發(fā)生變化。這種現(xiàn)象在生物醫(yī)學領域里是很常見的,找到這種關系,就是發(fā)現(xiàn)了一個亮點,能提高論文的檔次。怎么找呢?用“數(shù)據(jù)分析”菜單下的“平滑曲線擬合模塊”,結(jié)合“閾值效應與飽和效應分析”模塊很容易發(fā)現(xiàn)。
第一步是準備,第二步、第三步是摸底,下面該進入主題了,也就是要確定攻擊的主要目標與次要目標是什么?當然最主要的目標是X,次要目標是可能的混雜因素,在次要目標里又有相對重要的目標。如何確定呢?根據(jù)第二步得出了還有哪些因素與Y有什么樣的關系,再結(jié)合文獻上已經(jīng)報道的與Y有關的因素,不難列出這篇分析里需要考慮哪些可能的混雜因素(用Zs表示)及如何控制這些混雜因素。
如何有效控制混雜因素呢?
(1)假設AGE與Y有關系,如果是線性的關系,調(diào)整時就可以把AGE直接放入模型;如果是曲線性的關系,可以根據(jù)曲線形狀考慮:(a)調(diào)整時放入AGE與AGE的平方;(b)把AGE分成四等分或三等分,按分類變量處理;(c)根據(jù)曲線上的節(jié)點把AGE分組,按分類變量處理。
(2)假設文化程度(EDU)與Y有關,EDU本來也分成4組,有3個指示變量,根據(jù)這3個指示變量的回歸系數(shù),考慮是否可以合并成三組或兩組,或按等級變量來處理,以減少模型的自由度。
(3)假設職業(yè)(OCCU)與Y有關系,OCCU本來分成四組,有三個指示變量,根據(jù)這三個指示變量的回歸系數(shù),考慮是否可以合并成三組或兩組,以減少模型的自由度。注意職業(yè)不是等級變量,如果有三個或以上的分類,就不宜把OCCU直接放入模型。
易侕“變量操作”菜單下有相應的“連續(xù)性變量分組”、“分類變量取值重編碼”與“按連續(xù)性變量處理”分類變量,等等,很容易實現(xiàn)上述變量操作。
確定了Y、X、Zs(進行了必要的處理,如合并,分組)后,現(xiàn)在開始實施系統(tǒng)性的“攻城計劃”了。
第四步
調(diào)用“數(shù)據(jù)分析”菜單下的“研究人群描述”模塊,把X作用列分組變量,把Y及Zs拖入要描述的變量,如圖示,點擊查看結(jié)果。首先得出一個如下圖的研究人群描述表,讓我們看看四個(或合并后的兩個或三個)比較組人群有什么差異,這個表通常就是文章的表一。
第五步
調(diào)用“數(shù)據(jù)分析”菜單下的“單因素分析”模塊,把Y作為結(jié)果變量,把X及Zs拖入危險因素變量框內(nèi),如圖例,點擊查看結(jié)果。得出一個如下圖的單因素分析結(jié)果,讓我們看看這些因素與Y有沒有關系,這個表通常就是文章的表二。這里需要注意的是要根據(jù)上述第三步的結(jié)果決定如何放入X或和Z到模型中,如AGE與Y不是直線性的關系,就需要把AGE先分組,然后按分類變量進行單因素分析。
第六步
調(diào)用“數(shù)據(jù)分析”菜單下的“快速掃描交互作用”模塊,把Y作為結(jié)果變量,把X作為危險因素,把Zs拖入篩查交互作用變量框內(nèi),如圖例,點擊查看結(jié)果。得出一個如下圖的交互作用篩查結(jié)果,讓我們看看哪些因素影響(增強或減弱)X對Y的作用。
何為交互作用呢?如Zi與X有交互作用,指的是Zi不同的情況下X的回歸系數(shù)不同(有顯著差異),這個時候最好X分組不能太多,最好是兩組或是連續(xù)性變量。如果Zi是連續(xù)性變量,如AGE,易侕會自動對AGE進行等分組,看AGE低、中、高不同的情況下X的回歸系數(shù)有沒有顯著差異。
這個模塊只是快速篩查交互作用,如果發(fā)現(xiàn)某個Zi如EDU與X交互作用顯著或接近顯著,就需要用“數(shù)據(jù)分析”菜單下“交互作用檢驗模塊”分析,這個模塊中同時輸出未調(diào)整的與調(diào)整其它因素的模型,輸出論文中常用的表格模式。下一步詳述。
如果Zi是連續(xù)性變量,如AGE,上面這個“篩查交互作用模塊”是自動把AGE分組,然后分析AGE分組與X的交互作用。對這種連續(xù)性變量,如果它對Y的作用是線性的,而X是分組變量,交互作用還可以反過來作,即把AGE當成危險因素,分析X不同AGE對Y的作用(回歸系數(shù))是否有顯著性差異。這個時候,你可以先用“數(shù)據(jù)分析”菜單下的“變量圖示與統(tǒng)計檢驗”模塊,把Y放入分析變量(Y)框內(nèi),把連續(xù)性的Zs放入變量(X)框內(nèi),選X(分組變量)為“分層變量”,點擊查看結(jié)果。結(jié)果如下圖所示。自動得出X與每個Z的交互作用。如果這個模塊出來的交互作用顯著或接近顯著,再用“交互作用檢驗”模塊分不調(diào)整與調(diào)整其它因素模型,作交互作用檢驗。如果X與AGE有顯著的交互作用,說明Y隨AGE的變化受X影響,如X=1時Y隨AGE變化顯著大于X=0時,這就很有意義。
如果不調(diào)整其它因素,交互作用顯著,而調(diào)整了其它因素后,交互作用就不顯著了,怎么解釋呢?首先要比較按Zi分層的X的回歸系數(shù),并與未調(diào)整的模型比較,如果調(diào)整后按Zi分層的回歸系數(shù)差別仍然存在,與未調(diào)整的模型相比變化也不大(說明其它因素的混雜作用小),只是交互作用的P值不顯著了,這可能就是因為模型增加了調(diào)整因素,自由度增加了,檢驗效率低了,增加樣本量就可能顯著, 不等于沒有交互作用。這是為什么要同時呈現(xiàn)未調(diào)整與調(diào)整的模型。
尋找交互作用就象尋找最佳組合?!耙讈酢边@個球拍可以讓你輕松變招,你很容易就能發(fā)現(xiàn)哪兩招組合(如發(fā)什么樣的球,結(jié)合發(fā)球后如何搶攻)就能一下?lián)艨鍖Ψ?。交互作用是論文的亮點,它能讓你的論文價值一下子上升兩個檔次。這也是為什么這第六步花了這么大的篇幅。
第七步
這就要根據(jù)第六步的結(jié)果決定下一步如何走了。如果發(fā)現(xiàn)某因素(如SEX)與X有交互作用,那接下來就是:
(1)決定哪些因素要調(diào)整,調(diào)用“數(shù)據(jù)分析”菜單下的“協(xié)變量檢查與篩選”模塊,Y作為結(jié)果變量,X作為危險因素,把固定要調(diào)整的(可無)與要檢查與篩選的協(xié)變量(不包括SEX)放入相應的框內(nèi),把SEX作為分層變量,點擊查看結(jié)果。得出要調(diào)整的協(xié)變量有哪些,當然這個結(jié)果只是從現(xiàn)有數(shù)據(jù)中得來的,可能有些變量根據(jù)文獻需要調(diào)整但這里卻被篩出去了,可以把它們召回來,也可以在調(diào)用模塊時把這些變量作為固定要調(diào)整的變量。
(2)確定了要調(diào)整的協(xié)變量后,就用交互作用檢驗模塊,運行不調(diào)整的模型與調(diào)整的模型,呈現(xiàn)按SEX分層分析的結(jié)果與交互作用檢驗的P值。如果有幾個Zi與X都有交互作用,那就運行幾次這個模塊,最后把結(jié)果合并到一起即可。如果X(分組變量)與幾個連續(xù)性的Z都有交互作用,你在調(diào)用交互作用檢驗模塊時,還可以把這些Z作為危險因素,把X作用效應修飾因子,運行模型,結(jié)果直接呈現(xiàn)在一個表中。
這里的要點是當發(fā)現(xiàn)有交互作用時,就應該用分層的分析結(jié)果,來呈現(xiàn)X對Y有沒有獨立作用?獨立作用大小是多少?因為這時候獨立作用的大小因交互作用因素不同而不同,就不能用一個值來表達,否則你的論文就可能前后矛盾。
如果沒有發(fā)現(xiàn)交互作用,那接下來呢:
(1)第六步交互作用檢驗里做了很多分層的分析,比較一下(按Zi)分層的X的回歸系數(shù)與單因素分析時得出來的X的回歸系數(shù),如果差別比較大,說明這個分層因素(Zi)就是個混雜因素?;祀s的結(jié)果是雙向的,如果單因素分析X的回歸系數(shù)大,P值顯著,按Zi分層,每層內(nèi)X的回歸系數(shù)小,都不顯著,這樣你單因素分析發(fā)現(xiàn)的X與Y有關可能就是個表象,是由Zi的混雜造成的。如果單因素分析X的回歸系數(shù)小,P值不顯著,按Zi分層,每層內(nèi)X的回歸系數(shù)都大,都顯著或接近顯著,這樣你很幸運,單因素分析發(fā)現(xiàn)的X與Y無關也可能是個表象,是由Zi的混雜造成的,實際上它們之間是有關系的。
有時候你需要呈現(xiàn)分層分析的結(jié)果,以說明你發(fā)現(xiàn)的X與Y的關系不是由這些分層因素的混雜造成的,增加說服力,如下圖所示,作者按不同因素分層以說明吃豆腐量與血鉛有關。調(diào)用“數(shù)據(jù)分析”菜單下的“分層分析”模塊,把Y放入結(jié)果變量,X作為危險因素,把分層變量放入相應的框中,模塊自動按每個分層變量分層,分析X與Y的關系,直接輸出論文常見的表格格式。這個時候看分層分析結(jié)果時,P值是否顯著不是那么重要,當然顯著會更好,分層后因為每層內(nèi)的樣本量減少了,P值不一定顯著,關鍵是看每層內(nèi)X與Y的關系的趨勢是否仍然存在,回歸系數(shù)有多大改變。
(2)接下來是要評價X對Y獨立作用的大小。同上面所述,先調(diào)用“數(shù)據(jù)分析”菜單下的“協(xié)變量檢查與篩選”模塊,Y作為結(jié)果變量,X作為危險因素,把固定要調(diào)整的與要檢查與篩選的協(xié)變量放入相應的框內(nèi),點擊查看結(jié)果。
確定了要調(diào)整的變量后,就調(diào)用“數(shù)據(jù)分析”菜單下的“多個回歸方程”模塊,Y作為結(jié)果變量,X作為危險因素,運行兩個模型(模型I不調(diào)整任何因素,模型II調(diào)整上面得出的要調(diào)整的因素)或三個模型(模型I不調(diào)整任何因素,模型II調(diào)整固定要調(diào)整的因素,模型III調(diào)整上面得出的要調(diào)整的因素;或模型II調(diào)整上面得出的要調(diào)整的因素,模型III調(diào)整所有可能的混雜因素),對輸出表格可以進行相應的行列設計(或用默認的格式),點擊查看結(jié)果即得出論文常見的多個模型輸出的結(jié)果,如下圖例所示。
上述的這些動作要領雖然很多,但經(jīng)過幾次練習后,不難掌握,而且一旦掌握了,把規(guī)范變成習慣,以后用起來就自然了。到那時,你上場(打乒乓球)就可以隨意發(fā)揮了,而且失誤少,命中率高,就鮮有對手了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10