
作者:丁點(diǎn)helper
來(lái)源:丁點(diǎn)幫你
今天我們開始一個(gè)新的主題——生存分析。什么叫生存分析?為什么要采用生存分析呢?
前面我們一起學(xué)習(xí)的多重線性回歸和Logistic回歸都主要是用來(lái)分析某個(gè)結(jié)果的影響因素,比如教育程度對(duì)收入的影響,或者,糖尿病發(fā)生與否的影響因素,這些方法主要是在靜態(tài)地分析某一個(gè)特定的結(jié)果。
可是,倘若我們不僅僅關(guān)心結(jié)果的發(fā)生情況(發(fā)病VS未發(fā)?。?,同時(shí)我們也想看看發(fā)生該結(jié)果所經(jīng)歷的時(shí)間長(zhǎng)短,此時(shí),簡(jiǎn)單的線性或Logistic回歸就難以滿足這個(gè)需求,而生存分析可以來(lái)回答這類似的問(wèn)題。
生存數(shù)據(jù)
多重線性回歸,一般是指有多個(gè)自變量X,只有一個(gè)因變量Y。前面我們主要是以簡(jiǎn)單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個(gè)X時(shí),就稱簡(jiǎn)單線性回歸。
一般來(lái)講,在醫(yī)學(xué)科研中,生存分析較多應(yīng)用在腫瘤病人的治療方案評(píng)價(jià)方面。
這是因?yàn)閷?duì)于癌癥患者,我們往往更加關(guān)注的是”生存時(shí)間“,比如經(jīng)常聽到的:5年存活率、3年存活率... 而某種治療方法的價(jià)值也主要表現(xiàn)在延長(zhǎng)患者的存活時(shí)間。
比如在一項(xiàng)針對(duì)肺癌患者的研究中,研究者可能會(huì)關(guān)注下面三個(gè)問(wèn)題:
1)肺癌患者接受治療后的生存狀況如何?
2)哪種療法的效果最好?
3)這些患者在接受治療后的生存狀況與哪些因素有關(guān)?
我們可以看到,這三個(gè)問(wèn)題的答案不可能簡(jiǎn)單地通過(guò)最終的治療結(jié)果來(lái)衡量:治愈VS未治愈。
原因很簡(jiǎn)單也很殘酷,癌癥不像感冒那樣,不是看治好還是沒治好,讓患者存活更多時(shí)間、存活地更體面成為人們追求的目標(biāo)。
好了,回到我們的主題,如何掌握生存分析,并且靈活地運(yùn)用呢?
第一步是對(duì)下面幾個(gè)基本的概念有一個(gè)清晰的認(rèn)識(shí)。
生存數(shù)據(jù):前面我們說(shuō)到了,在某些研究中,除了要關(guān)注某結(jié)局事件的發(fā)生與否,還會(huì)考慮發(fā)生該結(jié)局所經(jīng)歷的時(shí)間長(zhǎng)短,這種兼有時(shí)間和結(jié)局兩種屬性的數(shù)據(jù),就被稱作生存數(shù)據(jù)。
這種將事件結(jié)局的出現(xiàn)與否和達(dá)到終點(diǎn)所經(jīng)歷的時(shí)間結(jié)合起來(lái)的統(tǒng)計(jì)方法就被稱作生存分析。
由此,在進(jìn)行生存分析時(shí)對(duì)”起點(diǎn)”、”終點(diǎn)“、以及”所經(jīng)歷的時(shí)間“(生存時(shí)間)都有十分明確的定義。專業(yè)術(shù)語(yǔ)一般稱為:
觀察起點(diǎn)(或稱起點(diǎn)事件)、觀察終點(diǎn)(終點(diǎn)事件)和時(shí)間間隔。
生存時(shí)間的確定
多重線性回歸,一般是指有多個(gè)自變量X,只有一個(gè)因變量Y。前面我們主要是以簡(jiǎn)單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個(gè)X時(shí),就稱簡(jiǎn)單線性回歸。
案例:某研究搜集了2013年1月1日至2015年12月31日間肺癌患者的資料,以了解患者接受治療后的生存情況及其可能的影響因素。
前面談到生存分析很關(guān)鍵的一點(diǎn)是確定生存時(shí)間,而確定生存時(shí)間最重要的是確定好觀察起點(diǎn)和終點(diǎn)。
在本案例中,2013年1月1日是觀察起點(diǎn);2015年12月31日是觀察終點(diǎn),問(wèn)題是并非所有人都是在起點(diǎn)進(jìn)入觀察,也并非在終點(diǎn)就正好發(fā)生結(jié)局(即死亡)。因此,我們需要做好相應(yīng)的記錄。
對(duì)于起點(diǎn),觀察對(duì)象可以在起點(diǎn)同時(shí)進(jìn)入觀察,也可以在不同時(shí)間點(diǎn)進(jìn)入觀察,如下A、B兩種形式:
A:所有觀察對(duì)象在同一時(shí)間點(diǎn)接受觀察;
B:觀察對(duì)象在不同時(shí)間點(diǎn)接受觀察。
上圖中,帶點(diǎn)的空心圓圈表示出現(xiàn)終點(diǎn)事件,帶加號(hào)的圓圈表示尚未出現(xiàn)終點(diǎn)事件。
對(duì)于終點(diǎn)的判斷,要稍微復(fù)雜一下。
本案例的具體數(shù)據(jù)如下:
我們先不細(xì)看上面的數(shù)據(jù),想這樣一個(gè)問(wèn)題:從開始觀察(2013/1/1)到觀察終止(2015/12/31),所有的觀察對(duì)象會(huì)有哪些情況發(fā)生呢?
1)觀察期內(nèi),能夠正常的隨訪,但在觀察終點(diǎn)前因肺癌死亡;
2)觀察期內(nèi),正常隨訪一段時(shí)間就斷了聯(lián)系,后面的情況一概不清楚;
3)觀察期內(nèi),能夠正常隨訪,但在終點(diǎn)前因其他原因死亡的;
4)從開始觀察到終止觀察,一直存活的對(duì)象。
大家想想,是不是所有的觀察對(duì)象都是這四種情況?是的
符合上面第一種情況的數(shù)據(jù),我們一般稱作完全數(shù)據(jù)(complete data),如上表中編號(hào)為1和3的患者,生存時(shí)間分別為23個(gè)月和13個(gè)月。
完全數(shù)據(jù)提供的是準(zhǔn)確的生存時(shí)間。除了”完全數(shù)據(jù)“,其他的所有情況(即上面的2-4情況)所獲得的數(shù)據(jù)均稱作”刪失數(shù)據(jù)“(censored data),有時(shí)也被稱作”截尾數(shù)據(jù)“。
上表中的2號(hào)患者,屬于”失訪“導(dǎo)致的”刪失“,患者可能變更聯(lián)系方式、未繼續(xù)就診或拒絕訪問(wèn)等原因,無(wú)法繼續(xù)隨訪,未能觀察到終點(diǎn)事件。
另外兩種”刪失“情況對(duì)應(yīng)上面第3)和第4)種情況:
比如表格中的編號(hào)4的患者,雖然死亡,但是死于車禍,這種”刪失“稱作”退出“;
5號(hào)患者在觀察終點(diǎn)時(shí)仍然存活,這種情況稱作”終止“。
一般來(lái)講,我們會(huì)在刪失數(shù)據(jù)的”生存時(shí)間“數(shù)據(jù)右上角標(biāo)記”+“,表示真實(shí)的生存時(shí)間可能長(zhǎng)于觀察到的時(shí)間,但是未知。
對(duì)于生存時(shí)間單位的選擇并沒有特別的限制,可以是年、月、日,或小時(shí)等,一般呈現(xiàn)非正態(tài)分布,所以在進(jìn)行生存分析時(shí)需進(jìn)行特定的調(diào)整,對(duì)此,我們后續(xù)再談。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10