99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2021-02-05 閱讀量: 985
什么情況下需要設(shè)置啞變量

1. 對(duì)于無序多分類變量,引入模型時(shí)需要轉(zhuǎn)化為啞變量

舉一個(gè)例子,如血型,一般分為A、B、O、AB四個(gè)類型,為無序多分類變量,通常情況下在錄入數(shù)據(jù)的時(shí)候,為了使數(shù)據(jù)量化,我們常會(huì)將其賦值為1、2、3、4。

從數(shù)字的角度來看,賦值為1、2、3、4后,它們是具有從小到大一定的順序關(guān)系的,而實(shí)際上,四種血型之間并沒有這種大小關(guān)系存在,它們之間應(yīng)該是相互平等獨(dú)立的關(guān)系。如果按照1、2、3、4賦值并帶入到回歸模型中是不合理的,此時(shí)我們就需要將其轉(zhuǎn)化為啞變量。

2. 對(duì)于有序多分類變量,引入模型時(shí)需要酌情考慮

例如疾病的嚴(yán)重程度,一般分為輕、中、重度,可認(rèn)為是有序多分類變量,通常情況下我們也常會(huì)將其賦值為1、2、3(等距)或1、2、4(等比)等形式,通過由小到大的數(shù)字關(guān)系,來體現(xiàn)疾病嚴(yán)重程度之間一定的等級(jí)關(guān)系。

但需要注意的是,一旦賦值為上述等距或等比的數(shù)值形式,這在某種程度上是認(rèn)為疾病的嚴(yán)重程度也呈現(xiàn)類似的等距或等比的關(guān)系。而事實(shí)上由于疾病在臨床上的復(fù)雜性,不同的嚴(yán)重程度之間并非是嚴(yán)格的等距或等比關(guān)系,因此再賦值為上述形式就顯得不太合理,此時(shí)可以將其轉(zhuǎn)化為啞變量進(jìn)行量化。

3. 對(duì)于連續(xù)性變量,進(jìn)行變量轉(zhuǎn)化時(shí)可以考慮設(shè)定為啞變量

對(duì)于連續(xù)性變量,很多人認(rèn)為可以直接將其帶入到回歸模型中即可,但有時(shí)我們還需要結(jié)合實(shí)際的臨床意義,對(duì)連續(xù)性變量作適當(dāng)?shù)霓D(zhuǎn)換。例如年齡,以連續(xù)性變量帶入模型時(shí),其解釋為年齡每增加一歲時(shí)對(duì)于因變量的影響。但往往年齡增加一歲,其效應(yīng)是很微弱的,并沒有太大的實(shí)際意義。

此時(shí),我們可以將年齡這個(gè)連續(xù)性變量進(jìn)行離散化,按照10歲一個(gè)年齡段進(jìn)行劃分,如0-10、11-20、21-30、31-40等等,將每一組賦值為1、2、3、4,此時(shí)構(gòu)建模型的回歸系數(shù)就可以解釋為年齡每增加10歲時(shí)對(duì)因變量的影響。

以上賦值方式是基于一個(gè)前提,即年齡與因變量之間存在著一定的線性關(guān)系。但有時(shí)候可能會(huì)出現(xiàn)以下情況,例如在年齡段較低和較高的人群中,某種疾病的死亡率較高,而在中青年人群中,死亡率卻相對(duì)較低,年齡和死亡結(jié)局之間呈現(xiàn)一個(gè)U字型的關(guān)系,此時(shí)再將年齡段賦值為1、2、3、4就顯得不太合理了。

因此,當(dāng)我們無法確定自變量和因變量之間的變化關(guān)系,將連續(xù)性自變量離散化時(shí),可以考慮進(jìn)行啞變量轉(zhuǎn)換。

還有一種情況,例如將BMI按照臨床診斷標(biāo)準(zhǔn)分為體重過低、正常體重、超重、肥胖等幾種分類時(shí),由于不同分類之間劃分的切點(diǎn)是不等距的,此時(shí)賦值為1、2、3就不太符合實(shí)際情況,也可以考慮將其轉(zhuǎn)化為啞變量。


57.1429
0
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無數(shù)據(jù)
推薦帖子