合聚咖

合聚咖

因果推断学习3 --- 随机试验

admin

在探讨因果性与因果效应的计算方法时,我们首先需要理解的是,因果推断的核心在于评估某项干预措施(例如是否吃药)对某一结果(例如是否头疼)的影响。为量化这一影响,我们引入了潜在结果的概念。以头疼为例,如果吃药后头疼消失,而未吃药时仍头疼,我们可能推断吃药与头疼缓解存在因果关联。反之,如果头疼无论是否吃药都存在,我们难以断定吃药对头疼的缓解有直接因果效应。

具体地,我们可以用do(T=1)表示施加干预(如吃药),do(T=0)表示不施加干预(即不吃药),而Y代表结果(是否头疼)。潜在结果即为施加干预与未施加干预两种状态下的结果。因果效应则通过计算这两种状态下的结果差异得到,即do(T=1) - do(T=0),也可简记为ITE (Individual Treatment Effect),代表个体层面的因果效应。

然而,对于特定个体而言,我们只能观察到施加与未施加干预的其中一种结果,而另一种结果为“反事实”结果。由于无法直接观察到这一结果,我们通常无法精确计算个体的因果效应。因此,我们倾向于研究针对人群的平均因果效应(ATE)。

平均因果效应(ATE)的计算基于期望的线性性质,但更常用于统计分析的是条件期望,它在实际情况下往往不等于等式左侧的期望。这是因为等式右侧衡量的是相关性,而相关性并不足以推出因果性,特别是当存在混杂因素(confounding)时。

为解决这一问题,随机试验(RCTs)成为一种理想选择。在随机试验中,干预(如是否吃药)的分配是随机的,这样可以有效控制混杂因素,从而更准确地估计因果效应。随机试验的显著特点是不存在混杂因素,即no confounding,从而允许我们直接计算因果效应。

尽管随机试验提供了理想的因果推断方法,但在现实世界中,获取随机试验数据并非总能实现。此时,观测研究(Observational studies)显得尤为重要,它们提供了大量非随机数据,用于探究因果效应。

观测研究面临的挑战在于混杂因素的存在,这会干扰变量之间的关联,影响因果效应的准确评估。为克服这一问题,我们通常需要调整或控制混杂因素。通过调整混杂因素,我们能够在条件期望的基础上计算因果效应,即基于混杂因素的条件计算结果,进而去除混杂因素的影响,计算出干预的因果效应。

当存在多个混杂因素时,我们需识别出足够的调整集(sufficient adjustment set),并控制这些混杂因素,以确保因果路径的独立性,即在特定条件下,混杂因素对结果的影响被有效阻断。通过这种方式,我们能够在调整了混杂因素后,准确估计干预的因果效应。

以COVID-27的例子为例,通过应用上述方法,我们能够计算得出在存在混杂因素的情况下,干预措施B相较于控制措施更优。这一结论的合理性在于,调整了混杂因素后,实验组与对照组中混杂因素的权重相等,从而确保了计算的合理性和公平性。

综上所述,因果推断不仅需要理解潜在结果的概念,还需要掌握如何在随机试验和观测研究中准确计算因果效应。通过有效控制混杂因素,我们可以更准确地评估干预措施对结果的影响,从而在实际应用中提供有价值的因果结论。