99久久国产综合精品五月天喷水,色吧777,久久久久久久久久久久久久久

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘?qū)崙?zhàn)訓練

2016-03-08

數(shù)據(jù)挖掘實戰(zhàn)訓練

問題：如果研究的變量為連續(xù)變量，且多種因素對它有影響，本研究共分為四組，并且組間AGE、BMI、BP等差異均具有統(tǒng)計學意義，應該如何校正AGE、BMI、BP等？

這里：

Y是連續(xù)性變量，我們假定基本符合正態(tài)分布。

X是四個組別，設X=0、1、2、3，分別表示四組。

目的是要比較四組之間有沒有差異，但要考慮到組間AGE、BMI、BP等不同對Y的影響。

做數(shù)據(jù)分析好比打乒乓球，多數(shù)人是自己摸索，沒有專業(yè)教練指導，接發(fā)球等動作是自己摸索出來一套野路子，常常一個球打好了，也不知道是怎么打好的，下一個就打不出來了，不能重復，因為不知道什么是規(guī)范的動作要領，打到一定水平后也無法再提高。而那些從小就經(jīng)過專業(yè)訓練出來的則完全不一樣，因為動作規(guī)范，所以技術(shù)水平提高快。

象上面這個問題，就有業(yè)余選手與專業(yè)選手兩種打法。先看看業(yè)余選手的通常打法：

1）先做方差分析看四組之間差別有沒有顯著性，如果有顯著性，考慮組間比較，看是哪兩組間有顯著差別。

2）考慮其它因素的影響，用逐步回歸的方法建立一個多元模型，初始模型為：Y=X+AGE+BMI+BP+…，最后出來一個最終模型，如Y=X+BMI，最后結(jié)論是X的組間差別有意義，另外BMI也是Y的一個危險因素。

3）業(yè)余段位高一點的會把X生成4個指示變量，用X0表示X=0，X1表示X=1, X2表示X=2, X1表示X=3,然后以X=0組為參照，把X1、X2、X3放入模型中，這樣初始模型變?yōu)椋篩=X1+X2+X3+AGE+BMI+BP+…，最后出來一個模型可能是Y=X2+X3+BMI。結(jié)論是X=2與X=3組與X=0組差別有意義，另外BMI也是Y的一個危險因素。

專業(yè)的打法路子是什么樣的呢？

首先專業(yè)選手使用的球拍就比較講究。雖然鄧亞萍可以用木鍋鏟當球拍與人打球，但那是打著玩的，正式上場比賽（發(fā)論文）必會拿著她最好用的球拍。這里對我來說最好用的球拍是EmpowerStats(易侕統(tǒng)計)軟件，下面我就用易侕軟件演示一下對這個問題的分析思路與操作規(guī)范：

第一步

先把數(shù)據(jù)整理好，這個就不多說了，變量名要用英文的，數(shù)據(jù)要數(shù)字化，如X編碼成0、1、2、3，性別可以是0、1（分別表示男、女），數(shù)據(jù)最好存成制表符分隔的文本文件。

第二步

打開易侕統(tǒng)計，給出數(shù)據(jù)文件名，易侕讀取數(shù)據(jù)文件后自動給出變量清單與每個變量的分布，如下圖示，這時候你就可以非常方便地查看每個變量的分布了，如Y、AGE、BMI、BP等連續(xù)性變量的分布形狀、最大值、最小值、百分位數(shù)、均數(shù)、標準差等，X等分類型變量每組的觀察數(shù)及其百分比，這些基本信息一下子就盡收眼底了。

可以看出“易侕”自動識別變量類型（分類型或連續(xù)性），根據(jù)變量類型做相應的統(tǒng)計描述，并將其分布用非常簡明的方式呈現(xiàn)出來。也就是說“易侕”這個球拍可以自動發(fā)出各種旋球，一個回合下來，對方吃不吃旋球，吃什么樣的旋球，你一下就摸清了。

第三步

用“數(shù)據(jù)分析”菜單下的“掃描關聯(lián)關系”模塊，把Y拖入（或雙擊）結(jié)果變量框內(nèi)，如圖所示:

易侕自動掃描數(shù)據(jù)中哪些變量與Y有關，給出如下圖的圖表結(jié)果。

這個時候做的是單因素分析，看每個變量與Y的關系，沒有考慮其它因素的影響，如果你確定哪個（或幾個）變量，如AGE，對Y有影響，你可以把AGE放到調(diào)整變量里，這樣看的就是看在調(diào)整了AGE的情況下，其余每個變量對Y有沒有影響。

易侕在分析連續(xù)性變量如BMI與Y有沒有關系時，會自動考慮到BMI與Y的關系可能不是線性的變化關系，因此在做了直線回歸分析的同時，還會自動做平滑曲線擬合，以展現(xiàn)Y隨BMI的變化曲線，幫助我們判斷兩者之間是什么樣的關系。

在分析分類變量如X與Y的關系時，自動生成指示變量放入模型，把X=1、2、3組與0組比較，呈現(xiàn)三個回歸系數(shù)（分別表示每組與X=0組相比Y的差值）及其95%可信區(qū)間與P值。這個回歸系數(shù)的大小很重要，可以幫助我們判斷是否可以進行組間合并，X=0組是參照組，相當于其回歸系數(shù)是0，如果X=1的回歸系數(shù)與0接近且不顯著，也就是說X=1組與X=0組沒有差別，后面的分析就可以考慮把這兩組合并為一組，同理如果X2與X3組回歸系數(shù)接近，也可以考慮把它們合并，這樣一來原來四組之間的比較，就可能合并成兩組（或三組）之間的比較，合并的目的是使比較組的樣本量增加，提高檢驗效率，原來只是接近顯著的差別就可能變得顯著了。如果不能合并，看X1、X2、X3的回歸系數(shù)的相對大小，如果有等級關系，就可以考慮把X當成等級變量，直接把X放入模型。必要時要對X進行重新編碼，如回歸系數(shù)是X1<X3<X2，相鄰的差值基本相等，就可以把原來的X=3與X=2互換一下，用易侕的“變量操作”菜單下的“分類變量取值重編碼”功能很容易實現(xiàn)。把X直接放入模型得出的回歸系數(shù)就表示X每增加一個等級Y變化多少，這樣模型用到的參數(shù)少了2個，檢驗效率也就提高了。

這下我們可以看到“易侕”這個球拍還會自動拉出弧圈來。這個回合下來，你對數(shù)據(jù)內(nèi)部的關聯(lián)關系就有了一個輪廓性的了解。至少你知道了X與Y表面上看有沒有關系? 是什么樣的關系? 還有哪些因素與Y有什么樣的關系了？

也許你會問，這個過程只是單因素的分析，沒有考慮組間諸如AGE、BMI、BP的影響，得出來的X1、X2、X3的回歸系數(shù)不一定可靠，這時候根據(jù)它們的大小決定合并分組（或按等級變量來處理）是否過早，因為以后在調(diào)整了AGE、BMI、BP這些因素的影響后，它們可能就不是現(xiàn)在這樣的相對大小了，可能要重新合并。這個考慮完全正確，這相當于你拉出了一個弧圈，對方又拉回來了，你就多拉幾個回合（調(diào)整其它可能的影響因素）看看，再不行就改著削回去，保持用原來的三個指示變量。

順便提一句：如果X是個連續(xù)性的變量，Y是否隨X直線變化呢？有沒有閾值效應或飽和效應呢？閾值效應即當X達到某點后，X增加Y開始發(fā)生變化；飽和效應指當X達到某點后,X增加Y不再發(fā)生變化。這種現(xiàn)象在生物醫(yī)學領域里是很常見的，找到這種關系，就是發(fā)現(xiàn)了一個亮點，能提高論文的檔次。怎么找呢？用“數(shù)據(jù)分析”菜單下的“平滑曲線擬合模塊”，結(jié)合“閾值效應與飽和效應分析”模塊很容易發(fā)現(xiàn)。

第一步是準備，第二步、第三步是摸底，下面該進入主題了，也就是要確定攻擊的主要目標與次要目標是什么？當然最主要的目標是X，次要目標是可能的混雜因素，在次要目標里又有相對重要的目標。如何確定呢？根據(jù)第二步得出了還有哪些因素與Y有什么樣的關系，再結(jié)合文獻上已經(jīng)報道的與Y有關的因素，不難列出這篇分析里需要考慮哪些可能的混雜因素（用Zs表示）及如何控制這些混雜因素。

如何有效控制混雜因素呢？

（1）假設AGE與Y有關系，如果是線性的關系，調(diào)整時就可以把AGE直接放入模型；如果是曲線性的關系，可以根據(jù)曲線形狀考慮：（a）調(diào)整時放入AGE與AGE的平方；（b）把AGE分成四等分或三等分，按分類變量處理；（c）根據(jù)曲線上的節(jié)點把AGE分組，按分類變量處理。

（2）假設文化程度（EDU）與Y有關，EDU本來也分成4組，有3個指示變量，根據(jù)這3個指示變量的回歸系數(shù)，考慮是否可以合并成三組或兩組，或按等級變量來處理，以減少模型的自由度。

（3）假設職業(yè)（OCCU）與Y有關系，OCCU本來分成四組，有三個指示變量，根據(jù)這三個指示變量的回歸系數(shù)，考慮是否可以合并成三組或兩組，以減少模型的自由度。注意職業(yè)不是等級變量，如果有三個或以上的分類，就不宜把OCCU直接放入模型。

易侕“變量操作”菜單下有相應的“連續(xù)性變量分組”、“分類變量取值重編碼”與“按連續(xù)性變量處理”分類變量，等等，很容易實現(xiàn)上述變量操作。

確定了Y、X、Zs(進行了必要的處理，如合并，分組）后，現(xiàn)在開始實施系統(tǒng)性的“攻城計劃”了。

第四步

調(diào)用“數(shù)據(jù)分析”菜單下的“研究人群描述”模塊，把X作用列分組變量，把Y及Zs拖入要描述的變量，如圖示，點擊查看結(jié)果。首先得出一個如下圖的研究人群描述表，讓我們看看四個（或合并后的兩個或三個）比較組人群有什么差異，這個表通常就是文章的表一。

第五步

調(diào)用“數(shù)據(jù)分析”菜單下的“單因素分析”模塊，把Y作為結(jié)果變量，把X及Zs拖入危險因素變量框內(nèi)，如圖例，點擊查看結(jié)果。得出一個如下圖的單因素分析結(jié)果，讓我們看看這些因素與Y有沒有關系，這個表通常就是文章的表二。這里需要注意的是要根據(jù)上述第三步的結(jié)果決定如何放入X或和Z到模型中，如AGE與Y不是直線性的關系，就需要把AGE先分組，然后按分類變量進行單因素分析。

第六步

調(diào)用“數(shù)據(jù)分析”菜單下的“快速掃描交互作用”模塊，把Y作為結(jié)果變量，把X作為危險因素，把Zs拖入篩查交互作用變量框內(nèi)，如圖例，點擊查看結(jié)果。得出一個如下圖的交互作用篩查結(jié)果，讓我們看看哪些因素影響(增強或減弱)X對Y的作用。

何為交互作用呢？如Zi與X有交互作用，指的是Zi不同的情況下X的回歸系數(shù)不同（有顯著差異），這個時候最好X分組不能太多，最好是兩組或是連續(xù)性變量。如果Zi是連續(xù)性變量，如AGE，易侕會自動對AGE進行等分組，看AGE低、中、高不同的情況下X的回歸系數(shù)有沒有顯著差異。

這個模塊只是快速篩查交互作用，如果發(fā)現(xiàn)某個Zi如EDU與X交互作用顯著或接近顯著，就需要用“數(shù)據(jù)分析”菜單下“交互作用檢驗模塊”分析，這個模塊中同時輸出未調(diào)整的與調(diào)整其它因素的模型，輸出論文中常用的表格模式。下一步詳述。

如果Zi是連續(xù)性變量，如AGE，上面這個“篩查交互作用模塊”是自動把AGE分組，然后分析AGE分組與X的交互作用。對這種連續(xù)性變量，如果它對Y的作用是線性的，而X是分組變量，交互作用還可以反過來作，即把AGE當成危險因素，分析X不同AGE對Y的作用（回歸系數(shù)）是否有顯著性差異。這個時候，你可以先用“數(shù)據(jù)分析”菜單下的“變量圖示與統(tǒng)計檢驗”模塊，把Y放入分析變量（Y）框內(nèi)，把連續(xù)性的Zs放入變量（X）框內(nèi)，選X（分組變量）為“分層變量”，點擊查看結(jié)果。結(jié)果如下圖所示。自動得出X與每個Z的交互作用。如果這個模塊出來的交互作用顯著或接近顯著，再用“交互作用檢驗”模塊分不調(diào)整與調(diào)整其它因素模型，作交互作用檢驗。如果X與AGE有顯著的交互作用，說明Y隨AGE的變化受X影響，如X=1時Y隨AGE變化顯著大于X=0時，這就很有意義。

如果不調(diào)整其它因素，交互作用顯著，而調(diào)整了其它因素后，交互作用就不顯著了，怎么解釋呢？首先要比較按Zi分層的X的回歸系數(shù)，并與未調(diào)整的模型比較，如果調(diào)整后按Zi分層的回歸系數(shù)差別仍然存在，與未調(diào)整的模型相比變化也不大(說明其它因素的混雜作用小)，只是交互作用的P值不顯著了，這可能就是因為模型增加了調(diào)整因素，自由度增加了，檢驗效率低了，增加樣本量就可能顯著, 不等于沒有交互作用。這是為什么要同時呈現(xiàn)未調(diào)整與調(diào)整的模型。

尋找交互作用就象尋找最佳組合?！耙讈酢边@個球拍可以讓你輕松變招，你很容易就能發(fā)現(xiàn)哪兩招組合（如發(fā)什么樣的球，結(jié)合發(fā)球后如何搶攻）就能一下?lián)艨鍖Ψ?。交互作用是論文的亮點，它能讓你的論文價值一下子上升兩個檔次。這也是為什么這第六步花了這么大的篇幅。

第七步

這就要根據(jù)第六步的結(jié)果決定下一步如何走了。如果發(fā)現(xiàn)某因素(如SEX)與X有交互作用，那接下來就是：

（1）決定哪些因素要調(diào)整，調(diào)用“數(shù)據(jù)分析”菜單下的“協(xié)變量檢查與篩選”模塊，Y作為結(jié)果變量，X作為危險因素，把固定要調(diào)整的（可無）與要檢查與篩選的協(xié)變量（不包括SEX）放入相應的框內(nèi)，把SEX作為分層變量，點擊查看結(jié)果。得出要調(diào)整的協(xié)變量有哪些，當然這個結(jié)果只是從現(xiàn)有數(shù)據(jù)中得來的，可能有些變量根據(jù)文獻需要調(diào)整但這里卻被篩出去了，可以把它們召回來，也可以在調(diào)用模塊時把這些變量作為固定要調(diào)整的變量。

（2）確定了要調(diào)整的協(xié)變量后，就用交互作用檢驗模塊，運行不調(diào)整的模型與調(diào)整的模型，呈現(xiàn)按SEX分層分析的結(jié)果與交互作用檢驗的P值。如果有幾個Zi與X都有交互作用，那就運行幾次這個模塊，最后把結(jié)果合并到一起即可。如果X（分組變量）與幾個連續(xù)性的Z都有交互作用，你在調(diào)用交互作用檢驗模塊時，還可以把這些Z作為危險因素，把X作用效應修飾因子，運行模型，結(jié)果直接呈現(xiàn)在一個表中。

這里的要點是當發(fā)現(xiàn)有交互作用時，就應該用分層的分析結(jié)果，來呈現(xiàn)X對Y有沒有獨立作用？獨立作用大小是多少？因為這時候獨立作用的大小因交互作用因素不同而不同，就不能用一個值來表達，否則你的論文就可能前后矛盾。

如果沒有發(fā)現(xiàn)交互作用，那接下來呢：

(1)第六步交互作用檢驗里做了很多分層的分析，比較一下（按Zi）分層的X的回歸系數(shù)與單因素分析時得出來的X的回歸系數(shù)，如果差別比較大，說明這個分層因素（Zi）就是個混雜因素?；祀s的結(jié)果是雙向的，如果單因素分析X的回歸系數(shù)大，P值顯著，按Zi分層，每層內(nèi)X的回歸系數(shù)小，都不顯著，這樣你單因素分析發(fā)現(xiàn)的X與Y有關可能就是個表象，是由Zi的混雜造成的。如果單因素分析X的回歸系數(shù)小，P值不顯著，按Zi分層，每層內(nèi)X的回歸系數(shù)都大，都顯著或接近顯著，這樣你很幸運，單因素分析發(fā)現(xiàn)的X與Y無關也可能是個表象，是由Zi的混雜造成的，實際上它們之間是有關系的。

有時候你需要呈現(xiàn)分層分析的結(jié)果，以說明你發(fā)現(xiàn)的X與Y的關系不是由這些分層因素的混雜造成的，增加說服力，如下圖所示，作者按不同因素分層以說明吃豆腐量與血鉛有關。調(diào)用“數(shù)據(jù)分析”菜單下的“分層分析”模塊，把Y放入結(jié)果變量，X作為危險因素，把分層變量放入相應的框中，模塊自動按每個分層變量分層，分析X與Y的關系，直接輸出論文常見的表格格式。這個時候看分層分析結(jié)果時，P值是否顯著不是那么重要，當然顯著會更好，分層后因為每層內(nèi)的樣本量減少了，P值不一定顯著，關鍵是看每層內(nèi)X與Y的關系的趨勢是否仍然存在，回歸系數(shù)有多大改變。

(2)接下來是要評價X對Y獨立作用的大小。同上面所述，先調(diào)用“數(shù)據(jù)分析”菜單下的“協(xié)變量檢查與篩選”模塊，Y作為結(jié)果變量，X作為危險因素，把固定要調(diào)整的與要檢查與篩選的協(xié)變量放入相應的框內(nèi)，點擊查看結(jié)果。

確定了要調(diào)整的變量后，就調(diào)用“數(shù)據(jù)分析”菜單下的“多個回歸方程”模塊，Y作為結(jié)果變量，X作為危險因素，運行兩個模型（模型I不調(diào)整任何因素，模型II調(diào)整上面得出的要調(diào)整的因素）或三個模型（模型I不調(diào)整任何因素，模型II調(diào)整固定要調(diào)整的因素，模型III調(diào)整上面得出的要調(diào)整的因素；或模型II調(diào)整上面得出的要調(diào)整的因素，模型III調(diào)整所有可能的混雜因素），對輸出表格可以進行相應的行列設計（或用默認的格式），點擊查看結(jié)果即得出論文常見的多個模型輸出的結(jié)果，如下圖例所示。