
作者:丁點helper
來源:丁點幫你
前文我們詳解過線性回歸,也初步介紹了生存分析所涉及的生存數(shù)據,明白了:做生存分析最特殊的一點是分析時要納入研究對象的“生存時間”,更一般的是指:出現(xiàn)某種特定結局的時間。今天的文章,我們更進一步地來學習如何看懂生存函數(shù)和生存曲線。
生存概率和死亡概率
在進入正題之前,我們需要首先明確兩個概念:生存概率與死亡概率。
1. 生存概率(survival probability),用p表示,是指某時段開始時存活的個體,到該時段結束時仍存活的可能性。
說起來好像有點兒嚇人,但是計算起來很簡單:
2. 死亡概率(probability of death),與生存概率相對, 用 q 表示,指某時段開始時存活的個體,在該時段內死亡的可能性。如年死亡概率表示年初尚存人口在今后1年內死亡的可能性。
p + q = 1。
介紹完這兩個基礎概念后,我們來看看什么叫生存函數(shù)(survival function)。
生存率
教科書的定義是:生存函數(shù)表示觀察對象的生存時間T大于某個時間的概率,常用 S(t)表示。
生存函數(shù)又稱為累積生存率,簡稱生存率(survival rate)。例如,前文談到的肺癌患者,其生存函數(shù)可以寫作:
代表患者治療后存活時間大于18個月的概率,該值越大表明治療的療效越好。這里有一個點很容易混淆,S(t)表示生存率,而前面我們用p代表的是生存概率。一個是生存率,另一個是生存概率,難道不是一回事兒嗎?
還真不是!生存率與生存概率雖然一字之差但定義卻不大相同(當然兩者也存在聯(lián)系)。
還是上面的T=18的例子,對于生存率和生存概率,我們可以分別這樣來寫:
生存率:S(t=18)=P(T>18)
生存概率: P(t=18)=P(T=18)
看上面的式子,生存率的計算是用“>”,而生存概率的計算是“=”。由此,生存概率是指單位時間上生存的可能性,生存率是某個時間段(由一個或多個單位時間組成的時間段)生存的可能性,是多個單位時間生存概率的累計結果。
比如評價肺癌治療后3年的生存率,是指第一年存活,第二年存活,直至第三年仍然存活的累積概率,而這3年間每一年都會有不同的生存概率,兩者之間的關系如下圖:
數(shù)學上,生存率和生存概率也有如下的計算關系:
生存曲線
除了計算某個時刻(從開始到該時刻的整個時間段)的生存率之外,我們還可以利用圖示法更加直觀地描述生存率隨生存時間的變化而變化。
下圖即為根據某項研究制定的生存曲線:橫軸是生存時間,縱軸是生存率。
如上圖,我們可以發(fā)現(xiàn),當T=11.124時,對應的生存率是0.5。
隨著時間的延長,部分患者死亡,從而導致生存函數(shù)的值會逐漸降低。從圖形上看,當時間趨于無窮大時,生存函數(shù)的值趨于0,意味著,長遠來看,每位患者的生存時間都是有限的,不可能無限活下去。
在實際應用中如何來估算生存率呢?也很簡單,若數(shù)據中無刪失值(不懂什么是刪失,戳此閱讀),某時刻的生存率可用下式估計(有刪失的情況要更復雜一些):
一般而言,生存分析的主要應用如下:
1.描述生存時間的分布特點。通過生存時間和生存結局的數(shù)據估計平均存活時間及生存率,繪制生存曲線,根據生存曲線分析其生存特點等。
2.比較生存曲線。通過相應的假設檢驗方法對不同樣本的生存曲線進行比較,以推斷各總體的生存狀況是否存在差別,比較不同治療方法預后效果的差異。
3.分析影響生存狀況的因素。通過生存分析模型來探討影響生存狀況的因素,通常以生存時間和結局作為因變量,而將可能的影響因素作為自變量,通過擬合生存分析模型,篩選具有統(tǒng)計學意義的生存狀況的影響因素。
具體在實際應用中如何進行生存函數(shù)的估計而實現(xiàn)上述應用,這就是我們下篇文章將要給大家?guī)淼膬热萘恕?
想從事業(yè)務型數(shù)據分析師,您可以點擊>>>“數(shù)據分析師”了解課程詳情;
想從事大數(shù)據分析師,您可以點擊>>>“大數(shù)據就業(yè)”了解課程詳情;
想成為人工智能工程師,您可以點擊>>>“人工智能就業(yè)”了解課程詳情;
想了解Python數(shù)據分析,您可以點擊>>>“Python數(shù)據分析師”了解課程詳情;
數(shù)據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據分析師報考條件詳解與準備指南? ? 在數(shù)據驅動決策的時代浪潮下,CDA 數(shù)據分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據透視表中兩列相乘合計的實用指南? 在數(shù)據分析的日常工作中,數(shù)據透視表憑借其強大的數(shù)據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據分析師:連接數(shù)據與業(yè)務的價值轉化者? ? 在大數(shù)據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據查詢到趨勢預判? ? 在數(shù)據驅動決策的時代,預測分析作為挖掘數(shù)據潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據背后的時間軌跡? 在數(shù)據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據類型:時間維度的精準切片? ? 在數(shù)據的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據分析師認證考試中,Python 作為數(shù)據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據趨勢與突變分析的有力工具? ? ? 在數(shù)據分析的廣袤領域中,準確捕捉數(shù)據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據分析師認證作為國內權威的數(shù)據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據分析師考試作為衡量數(shù)據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據處理的關鍵技能? 在數(shù)據處理與分析工作中,數(shù)據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據分析師視角:從數(shù)據迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據分析師:開啟數(shù)據職業(yè)發(fā)展新征程? ? 在數(shù)據成為核心生產要素的今天,數(shù)據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03