合聚咖

合聚咖

生存分析——KM生存曲线、hazard比例、PH假定检验、非比例风险模型(分层/时变/参数模型)(二)

admin

生存分析作为一门核心统计学工具,广泛应用于医疗、生物学、工程学等领域,以研究事件发生的时间与影响因素。本篇学习笔记将深入探讨生存分析的基本概念、数据类型、核心概念及其应用模型。在进行生存分析时,我们需要了解数据类型和删失数据的分类,从而为后续分析打下坚实基础。

首先,生存分析的数据资料分为终点事件和删失两种类型。删失数据包括右删失、左删失和区间删失,它们分别对应在研究结束时无法获取完整信息的情况。右删失指的是研究对象的观察起始时间已知,但终点事件发生的时间未知,通常称为定时删失。左删失则是在研究开始前,研究对象已发生事件,但无法确定确切时间。区间删失则发生在研究期间,仅能观察到事件在某个区间内发生,但具体时间点不明确。

接下来,我们探讨完全数据的概念,即在研究过程中能够明确观察到每个对象的生存时间。生存概率(Survival probability)和风险概率(Hazard probability)是生存分析中的核心概念,其中生存概率表示对象在特定时间点仍然存活的概率,而风险概率则关注对象在特定时间之前存活,但该时间点发生事件的概率。

在描述生存时间相关概念时,我们关注生存函数(Survival function)和风险函数(Hazard function)之间的关系。生存函数表示对象生存时间超过某时间点的概率,而风险函数则描述对象在特定时间点发生事件的风险。Kaplan-Meier 方法通过计算每个时间点的生存概率来构建生存曲线,直观地展示了生存率随时间的变化。

此外,Kaplan-Meier 生存概率估计提供了计算不同时间点生存概率的数学公式,通过连续计算每个时间点的生存概率来构建生存曲线。图示的生存曲线能够清晰地反映出生存率在时间轴上的变化趋势。通过对生存曲线的比较,我们可以评估不同组别之间的生存差异,例如中位生存时间(Median survival time)。

在进行生存分析时,我们还需关注比例风险假定(Proportional hazards assumption),这是Cox比例风险回归模型的前提条件。通过比较Kaplan-Meier 生存曲线,我们能直观判断比例风险假定是否成立。对于违反比例风险假定的情况,我们可以采用分层变量、时变协变量或参数模型等方法进行调整。

分层变量是将非比例风险的协变量作为分层因素,以控制混杂效应;时变协变量允许协变量随时间变化,通过分段Cox回归或构建交互项纳入协变量;参数模型则假设风险函数遵循特定分布(如指数分布、Weibull分布或Gompertz分布),通过估计模型参数以提供更详细的风险分布信息。

综上所述,生存分析是一门复杂但极具实用价值的统计学工具,通过深入理解数据类型、核心概念及其模型选择,我们可以有效地分析和解读事件发生时间与影响因素之间的关系。