99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)挖掘?qū)崙?zhàn)訓練
數(shù)據(jù)挖掘?qū)崙?zhàn)訓練
2016-03-08
收藏

數(shù)據(jù)挖掘實戰(zhàn)訓練

問題:如果研究的變量為連續(xù)變量,且多種因素對它有影響,本研究共分為四組,并且組間AGE、BMI、BP等差異均具有統(tǒng)計學意義,應(yīng)該如何校正AGE、BMI、BP等?

這里:

Y是連續(xù)性變量,我們假定基本符合正態(tài)分布。

X是四個組別,設(shè)X=0、1、2、3,分別表示四組。

目的是要比較四組之間有沒有差異,但要考慮到組間AGE、BMI、BP等不同對Y的影響。

數(shù)據(jù)分析好比打乒乓球,多數(shù)人是自己摸索,沒有專業(yè)教練指導(dǎo),接發(fā)球等動作是自己摸索出來一套野路子,常常一個球打好了,也不知道是怎么打好的,下一個就打不出來了,不能重復(fù),因為不知道什么是規(guī)范的動作要領(lǐng),打到一定水平后也無法再提高。而那些從小就經(jīng)過專業(yè)訓練出來的則完全不一樣,因為動作規(guī)范,所以技術(shù)水平提高快。

象上面這個問題,就有業(yè)余選手與專業(yè)選手兩種打法。先看看業(yè)余選手的通常打法:

1)先做方差分析看四組之間差別有沒有顯著性,如果有顯著性,考慮組間比較,看是哪兩組間有顯著差別。

2)考慮其它因素的影響,用逐步回歸的方法建立一個多元模型,初始模型為:Y=X+AGE+BMI+BP+…,最后出來一個最終模型,如Y=X+BMI,最后結(jié)論是X的組間差別有意義,另外BMI也是Y的一個危險因素。

3)業(yè)余段位高一點的會把X生成4個指示變量,用X0表示X=0,X1表示X=1, X2表示X=2, X1表示X=3,然后以X=0組為參照,把X1、X2、X3放入模型中,這樣初始模型變?yōu)椋篩=X1+X2+X3+AGE+BMI+BP+…,最后出來一個模型可能是Y=X2+X3+BMI。結(jié)論是X=2與X=3組與X=0組差別有意義,另外BMI也是Y的一個危險因素。

專業(yè)的打法路子是什么樣的呢?

首先專業(yè)選手使用的球拍就比較講究。雖然鄧亞萍可以用木鍋鏟當球拍與人打球,但那是打著玩的,正式上場比賽(發(fā)論文)必會拿著她最好用的球拍。這里對我來說最好用的球拍是EmpowerStats(易侕統(tǒng)計)軟件,下面我就用易侕軟件演示一下對這個問題的分析思路與操作規(guī)范:

第一步

先把數(shù)據(jù)整理好,這個就不多說了,變量名要用英文的,數(shù)據(jù)要數(shù)字化,如X編碼成0、1、2、3,性別可以是0、1(分別表示男、女),數(shù)據(jù)最好存成制表符分隔的文本文件。

第二步

打開易侕統(tǒng)計,給出數(shù)據(jù)文件名,易侕讀取數(shù)據(jù)文件后自動給出變量清單與每個變量的分布,如下圖示,這時候你就可以非常方便地查看每個變量的分布了,如Y、AGE、BMI、BP等連續(xù)性變量的分布形狀、最大值、最小值、百分位數(shù)、均數(shù)、標準差等,X等分類型變量每組的觀察數(shù)及其百分比,這些基本信息一下子就盡收眼底了。

可以看出“易侕”自動識別變量類型(分類型或連續(xù)性),根據(jù)變量類型做相應(yīng)的統(tǒng)計描述,并將其分布用非常簡明的方式呈現(xiàn)出來。也就是說“易侕”這個球拍可以自動發(fā)出各種旋球,一個回合下來,對方吃不吃旋球,吃什么樣的旋球,你一下就摸清了。

第三步

用“數(shù)據(jù)分析”菜單下的“掃描關(guān)聯(lián)關(guān)系”模塊,把Y拖入(或雙擊)結(jié)果變量框內(nèi),如圖所示:

易侕自動掃描數(shù)據(jù)中哪些變量與Y有關(guān),給出如下圖的圖表結(jié)果。

這個時候做的是單因素分析,看每個變量與Y的關(guān)系,沒有考慮其它因素的影響,如果你確定哪個(或幾個)變量,如AGE,對Y有影響,你可以把AGE放到調(diào)整變量里,這樣看的就是看在調(diào)整了AGE的情況下,其余每個變量對Y有沒有影響。

易侕在分析連續(xù)性變量如BMI與Y有沒有關(guān)系時,會自動考慮到BMI與Y的關(guān)系可能不是線性的變化關(guān)系,因此在做了直線回歸分析的同時,還會自動做平滑曲線擬合,以展現(xiàn)Y隨BMI的變化曲線,幫助我們判斷兩者之間是什么樣的關(guān)系。

在分析分類變量如X與Y的關(guān)系時,自動生成指示變量放入模型,把X=1、2、3組與0組比較,呈現(xiàn)三個回歸系數(shù)(分別表示每組與X=0組相比Y的差值)及其95%可信區(qū)間與P值。這個回歸系數(shù)的大小很重要,可以幫助我們判斷是否可以進行組間合并,X=0組是參照組,相當于其回歸系數(shù)是0,如果X=1的回歸系數(shù)與0接近且不顯著,也就是說X=1組與X=0組沒有差別,后面的分析就可以考慮把這兩組合并為一組,同理如果X2與X3組回歸系數(shù)接近,也可以考慮把它們合并,這樣一來原來四組之間的比較,就可能合并成兩組(或三組)之間的比較,合并的目的是使比較組的樣本量增加,提高檢驗效率,原來只是接近顯著的差別就可能變得顯著了。如果不能合并,看X1、X2、X3的回歸系數(shù)的相對大小,如果有等級關(guān)系,就可以考慮把X當成等級變量,直接把X放入模型。必要時要對X進行重新編碼,如回歸系數(shù)是X1<X3<X2,相鄰的差值基本相等,就可以把原來的X=3與X=2互換一下,用易侕的“變量操作”菜單下的“分類變量取值重編碼”功能很容易實現(xiàn)。把X直接放入模型得出的回歸系數(shù)就表示X每增加一個等級Y變化多少,這樣模型用到的參數(shù)少了2個,檢驗效率也就提高了。

這下我們可以看到“易侕”這個球拍還會自動拉出弧圈來。這個回合下來,你對數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系就有了一個輪廓性的了解。至少你知道了X與Y表面上看有沒有關(guān)系? 是什么樣的關(guān)系? 還有哪些因素與Y有什么樣的關(guān)系了?

也許你會問,這個過程只是單因素的分析,沒有考慮組間諸如AGE、BMI、BP的影響,得出來的X1、X2、X3的回歸系數(shù)不一定可靠,這時候根據(jù)它們的大小決定合并分組(或按等級變量來處理)是否過早,因為以后在調(diào)整了AGE、BMI、BP這些因素的影響后,它們可能就不是現(xiàn)在這樣的相對大小了,可能要重新合并。這個考慮完全正確,這相當于你拉出了一個弧圈,對方又拉回來了,你就多拉幾個回合(調(diào)整其它可能的影響因素)看看,再不行就改著削回去,保持用原來的三個指示變量。

順便提一句:如果X是個連續(xù)性的變量,Y是否隨X直線變化呢?有沒有閾值效應(yīng)或飽和效應(yīng)呢?閾值效應(yīng)即當X達到某點后,X增加Y開始發(fā)生變化;飽和效應(yīng)指當X達到某點后,X增加Y不再發(fā)生變化。這種現(xiàn)象在生物醫(yī)學領(lǐng)域里是很常見的,找到這種關(guān)系,就是發(fā)現(xiàn)了一個亮點,能提高論文的檔次。怎么找呢?用“數(shù)據(jù)分析”菜單下的“平滑曲線擬合模塊”,結(jié)合“閾值效應(yīng)與飽和效應(yīng)分析”模塊很容易發(fā)現(xiàn)。

第一步是準備,第二步、第三步是摸底,下面該進入主題了,也就是要確定攻擊的主要目標與次要目標是什么?當然最主要的目標是X,次要目標是可能的混雜因素,在次要目標里又有相對重要的目標。如何確定呢?根據(jù)第二步得出了還有哪些因素與Y有什么樣的關(guān)系,再結(jié)合文獻上已經(jīng)報道的與Y有關(guān)的因素,不難列出這篇分析里需要考慮哪些可能的混雜因素(用Zs表示)及如何控制這些混雜因素。

如何有效控制混雜因素呢?

(1)假設(shè)AGE與Y有關(guān)系,如果是線性的關(guān)系,調(diào)整時就可以把AGE直接放入模型;如果是曲線性的關(guān)系,可以根據(jù)曲線形狀考慮:(a)調(diào)整時放入AGE與AGE的平方;(b)把AGE分成四等分或三等分,按分類變量處理;(c)根據(jù)曲線上的節(jié)點把AGE分組,按分類變量處理。

(2)假設(shè)文化程度(EDU)與Y有關(guān),EDU本來也分成4組,有3個指示變量,根據(jù)這3個指示變量的回歸系數(shù),考慮是否可以合并成三組或兩組,或按等級變量來處理,以減少模型的自由度。

(3)假設(shè)職業(yè)(OCCU)與Y有關(guān)系,OCCU本來分成四組,有三個指示變量,根據(jù)這三個指示變量的回歸系數(shù),考慮是否可以合并成三組或兩組,以減少模型的自由度。注意職業(yè)不是等級變量,如果有三個或以上的分類,就不宜把OCCU直接放入模型。

易侕“變量操作”菜單下有相應(yīng)的“連續(xù)性變量分組”、“分類變量取值重編碼”與“按連續(xù)性變量處理”分類變量,等等,很容易實現(xiàn)上述變量操作。

確定了Y、X、Zs(進行了必要的處理,如合并,分組)后,現(xiàn)在開始實施系統(tǒng)性的“攻城計劃”了。

第四步

調(diào)用“數(shù)據(jù)分析”菜單下的“研究人群描述”模塊,把X作用列分組變量,把Y及Zs拖入要描述的變量,如圖示,點擊查看結(jié)果。首先得出一個如下圖的研究人群描述表,讓我們看看四個(或合并后的兩個或三個)比較組人群有什么差異,這個表通常就是文章的表一。

第五步

調(diào)用“數(shù)據(jù)分析”菜單下的“單因素分析”模塊,把Y作為結(jié)果變量,把X及Zs拖入危險因素變量框內(nèi),如圖例,點擊查看結(jié)果。得出一個如下圖的單因素分析結(jié)果,讓我們看看這些因素與Y有沒有關(guān)系,這個表通常就是文章的表二。這里需要注意的是要根據(jù)上述第三步的結(jié)果決定如何放入X或和Z到模型中,如AGE與Y不是直線性的關(guān)系,就需要把AGE先分組,然后按分類變量進行單因素分析。


第六步

調(diào)用“數(shù)據(jù)分析”菜單下的“快速掃描交互作用”模塊,把Y作為結(jié)果變量,把X作為危險因素,把Zs拖入篩查交互作用變量框內(nèi),如圖例,點擊查看結(jié)果。得出一個如下圖的交互作用篩查結(jié)果,讓我們看看哪些因素影響(增強或減弱)X對Y的作用。


何為交互作用呢?如Zi與X有交互作用,指的是Zi不同的情況下X的回歸系數(shù)不同(有顯著差異),這個時候最好X分組不能太多,最好是兩組或是連續(xù)性變量。如果Zi是連續(xù)性變量,如AGE,易侕會自動對AGE進行等分組,看AGE低、中、高不同的情況下X的回歸系數(shù)有沒有顯著差異。

這個模塊只是快速篩查交互作用,如果發(fā)現(xiàn)某個Zi如EDU與X交互作用顯著或接近顯著,就需要用“數(shù)據(jù)分析”菜單下“交互作用檢驗?zāi)K”分析,這個模塊中同時輸出未調(diào)整的與調(diào)整其它因素的模型,輸出論文中常用的表格模式。下一步詳述。

如果Zi是連續(xù)性變量,如AGE,上面這個“篩查交互作用模塊”是自動把AGE分組,然后分析AGE分組與X的交互作用。對這種連續(xù)性變量,如果它對Y的作用是線性的,而X是分組變量,交互作用還可以反過來作,即把AGE當成危險因素,分析X不同AGE對Y的作用(回歸系數(shù))是否有顯著性差異。這個時候,你可以先用“數(shù)據(jù)分析”菜單下的“變量圖示與統(tǒng)計檢驗”模塊,把Y放入分析變量(Y)框內(nèi),把連續(xù)性的Zs放入變量(X)框內(nèi),選X(分組變量)為“分層變量”,點擊查看結(jié)果。結(jié)果如下圖所示。自動得出X與每個Z的交互作用。如果這個模塊出來的交互作用顯著或接近顯著,再用“交互作用檢驗”模塊分不調(diào)整與調(diào)整其它因素模型,作交互作用檢驗。如果X與AGE有顯著的交互作用,說明Y隨AGE的變化受X影響,如X=1時Y隨AGE變化顯著大于X=0時,這就很有意義。

如果不調(diào)整其它因素,交互作用顯著,而調(diào)整了其它因素后,交互作用就不顯著了,怎么解釋呢?首先要比較按Zi分層的X的回歸系數(shù),并與未調(diào)整的模型比較,如果調(diào)整后按Zi分層的回歸系數(shù)差別仍然存在,與未調(diào)整的模型相比變化也不大(說明其它因素的混雜作用小),只是交互作用的P值不顯著了,這可能就是因為模型增加了調(diào)整因素,自由度增加了,檢驗效率低了,增加樣本量就可能顯著, 不等于沒有交互作用。這是為什么要同時呈現(xiàn)未調(diào)整與調(diào)整的模型。

尋找交互作用就象尋找最佳組合?!耙讈酢边@個球拍可以讓你輕松變招,你很容易就能發(fā)現(xiàn)哪兩招組合(如發(fā)什么樣的球,結(jié)合發(fā)球后如何搶攻)就能一下?lián)艨鍖Ψ?。交互作用是論文的亮點,它能讓你的論文價值一下子上升兩個檔次。這也是為什么這第六步花了這么大的篇幅。

第七步

這就要根據(jù)第六步的結(jié)果決定下一步如何走了。如果發(fā)現(xiàn)某因素(如SEX)與X有交互作用,那接下來就是:

(1)決定哪些因素要調(diào)整,調(diào)用“數(shù)據(jù)分析”菜單下的“協(xié)變量檢查與篩選”模塊,Y作為結(jié)果變量,X作為危險因素,把固定要調(diào)整的(可無)與要檢查與篩選的協(xié)變量(不包括SEX)放入相應(yīng)的框內(nèi),把SEX作為分層變量,點擊查看結(jié)果。得出要調(diào)整的協(xié)變量有哪些,當然這個結(jié)果只是從現(xiàn)有數(shù)據(jù)中得來的,可能有些變量根據(jù)文獻需要調(diào)整但這里卻被篩出去了,可以把它們召回來,也可以在調(diào)用模塊時把這些變量作為固定要調(diào)整的變量。

(2)確定了要調(diào)整的協(xié)變量后,就用交互作用檢驗?zāi)K,運行不調(diào)整的模型與調(diào)整的模型,呈現(xiàn)按SEX分層分析的結(jié)果與交互作用檢驗的P值。如果有幾個Zi與X都有交互作用,那就運行幾次這個模塊,最后把結(jié)果合并到一起即可。如果X(分組變量)與幾個連續(xù)性的Z都有交互作用,你在調(diào)用交互作用檢驗?zāi)K時,還可以把這些Z作為危險因素,把X作用效應(yīng)修飾因子,運行模型,結(jié)果直接呈現(xiàn)在一個表中。

這里的要點是當發(fā)現(xiàn)有交互作用時,就應(yīng)該用分層的分析結(jié)果,來呈現(xiàn)X對Y有沒有獨立作用?獨立作用大小是多少?因為這時候獨立作用的大小因交互作用因素不同而不同,就不能用一個值來表達,否則你的論文就可能前后矛盾。


如果沒有發(fā)現(xiàn)交互作用,那接下來呢:

(1)第六步交互作用檢驗里做了很多分層的分析,比較一下(按Zi)分層的X的回歸系數(shù)與單因素分析時得出來的X的回歸系數(shù),如果差別比較大,說明這個分層因素(Zi)就是個混雜因素?;祀s的結(jié)果是雙向的,如果單因素分析X的回歸系數(shù)大,P值顯著,按Zi分層,每層內(nèi)X的回歸系數(shù)小,都不顯著,這樣你單因素分析發(fā)現(xiàn)的X與Y有關(guān)可能就是個表象,是由Zi的混雜造成的。如果單因素分析X的回歸系數(shù)小,P值不顯著,按Zi分層,每層內(nèi)X的回歸系數(shù)都大,都顯著或接近顯著,這樣你很幸運,單因素分析發(fā)現(xiàn)的X與Y無關(guān)也可能是個表象,是由Zi的混雜造成的,實際上它們之間是有關(guān)系的。

有時候你需要呈現(xiàn)分層分析的結(jié)果,以說明你發(fā)現(xiàn)的X與Y的關(guān)系不是由這些分層因素的混雜造成的,增加說服力,如下圖所示,作者按不同因素分層以說明吃豆腐量與血鉛有關(guān)。調(diào)用“數(shù)據(jù)分析”菜單下的“分層分析”模塊,把Y放入結(jié)果變量,X作為危險因素,把分層變量放入相應(yīng)的框中,模塊自動按每個分層變量分層,分析X與Y的關(guān)系,直接輸出論文常見的表格格式。這個時候看分層分析結(jié)果時,P值是否顯著不是那么重要,當然顯著會更好,分層后因為每層內(nèi)的樣本量減少了,P值不一定顯著,關(guān)鍵是看每層內(nèi)X與Y的關(guān)系的趨勢是否仍然存在,回歸系數(shù)有多大改變。


(2)接下來是要評價X對Y獨立作用的大小。同上面所述,先調(diào)用“數(shù)據(jù)分析”菜單下的“協(xié)變量檢查與篩選”模塊,Y作為結(jié)果變量,X作為危險因素,把固定要調(diào)整的與要檢查與篩選的協(xié)變量放入相應(yīng)的框內(nèi),點擊查看結(jié)果。

確定了要調(diào)整的變量后,就調(diào)用“數(shù)據(jù)分析”菜單下的“多個回歸方程”模塊,Y作為結(jié)果變量,X作為危險因素,運行兩個模型(模型I不調(diào)整任何因素,模型II調(diào)整上面得出的要調(diào)整的因素)或三個模型(模型I不調(diào)整任何因素,模型II調(diào)整固定要調(diào)整的因素,模型III調(diào)整上面得出的要調(diào)整的因素;或模型II調(diào)整上面得出的要調(diào)整的因素,模型III調(diào)整所有可能的混雜因素),對輸出表格可以進行相應(yīng)的行列設(shè)計(或用默認的格式),點擊查看結(jié)果即得出論文常見的多個模型輸出的結(jié)果,如下圖例所示。


上述的這些動作要領(lǐng)雖然很多,但經(jīng)過幾次練習后,不難掌握,而且一旦掌握了,把規(guī)范變成習慣,以后用起來就自然了。到那時,你上場(打乒乓球)就可以隨意發(fā)揮了,而且失誤少,命中率高,就鮮有對手了。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }