admin 管理员组

文章数量: 1103785

因果推断概览

背景介绍

因果推断(Causal Inference):是关联分析的一种统计方法,在较大系统内部,试图指定/干预 “因” 而观测影响/改变 “果”的过程,推断变量之间的因果关系。因果推断不仅关注事物之间的关联性,还会更进一步探究该关联是否具有可从因到果的推断关系。因果推断在生物医学、经济管理和社会科学有广泛应用。通过揭示变量之间的因果关系,理解数据的产生机制,探究出现象背后的深层原因;通过回答出"Why",理解做决策的背后原因。

因果推断研究思路可分为三个发展阶段[1]:

  1. 辨识理论:在大数据驱动下,辨别出因果结构。
  2. 学习模型:融合因果启发与机器学习,生成稳定的学习模型。
  3. 决策机制:构建因果驱动的自动决策机制,优化决策机制。
跳转

辛普森悖论

因果关系必然导致关联关系,但关联关系不一定反映出因果关系。甚至某些情况下,用关联关系推导出的因果关系存在自身矛盾的问题

辛普森悖论(Simpson's paradox):英国统计学家E.H.辛普森于1951提出,某个条件下的两组数据,分别讨论时会满足某种性质,但合并考虑时,会导致相反的结论。即两个变量X和Y在每个分组中的关系是正(负)的,但在总体(汇总组) 中关系会发生逆转,变为负(正)关系。

(1). 若不考虑年龄因素,则得到服药与健康指数存在负关联性,即服药对健康状况的治疗效果是副作用(-1.2)

健康差异= \frac{(80\times6 + 60\times3)}{9} - \frac{(90\times2 + 65\times5)}{7} = 73.3 - 72.1 = -1.2

对应的回归分析,健康(Health)与是否服药治疗(Treat)的关系为,其中未服药为0,服药为1

Health = 73.3 - 1.2 \times Treat

(2). 若考虑年龄影响,并假设不存在其他混淆因素,可以得到服药与健康指数是正关联性,服药对健康存在正向作用。

30岁组服药后健康差异为正向10,40岁组服药后健康差异为正向5。 定义两个变量年龄(Age)、是否服药(Treat),整理后的数据如下:

Age

Treat

Health

30

0

80

30

1

90

40

0

60

40

1

65

进行线性回归分析,模型设置为如下:

Health=β_{0} + β_{1} \times Treat +β_{2}×Age + ϵ

其中β_{0} 是截距,β_{1} 是Treat治疗的相关系数,β_{2} 是Age年龄的相关系数,ϵ 是误差项。使用OLS(Ordinary Least Squares) 普通最小二乘法模拟计算,可得到如下结果:服药与健康指数是正相关的,年龄与健康指数是负相关的

Health=146.9 + 7.2 \times Treat -2.2×Age

变量关系路径图

变量关系路径图是DAG(Directed Acyclic Graph) 有向无环图,由节点(顶点)和单项箭头组成。每个节点代表变量,实心节点表示观测得到的变量,空心节点表示观测不到的变量。需要注意的是,DAG有向无环图无法描述互为因果(simultaneous causation)关系(下图示例2) 和 反馈循环 (feedback loops) 关系(下图示例3)。

关系路径图代表变量之间的关联方式,路径种类(关联方式)主要分为三类:因果路径、混淆路径、对撞路径。

因果路径

因果路径也称为链状路径, A\longrightarrow B \longrightarrow C ,由“因”指向“果”的单向路径,箭头指向同一方向。因果路径的关系是稳定、可解析、可回溯的,两个变量存在因果关系,则它们就存在关联关系(相关关系)。示例如下:锻炼与生活规律存在因果关系,生活规律与健康存在因果关系,可传递性推导:锻炼与健康存在因果关系。

混淆路径

混淆路径也称为叉状路径,A\longleftarrow B \longrightarrow C ,指观测变量之间存在混淆变量,该混淆变量同时影响观测变量,导致观测变量之间存在关联关系。示例如下:智商是混淆变量,而教育和收入分别是两个原始观测变量,由于智商变量存在,导致教育变量与收入变量存在关联性。

对撞路径

对撞路径也称为反叉状路径,A \longrightarrow B \longleftarrow C ,指具有对撞变量的路径,对撞变量是受两个变量共同影响的变量。对撞变量不会使得原始变量产生相关性。示例如下:死亡是对撞变量,而中枪、中风分别是两个原始观测变量,中枪与中风没有相关性。

估计偏差

因果推断是估计变量之间的因果关系,本质是找到变量两者间的因果路径,同时剔除两者间的非因果关系路径。但由于现实场景的复杂性,会存在各种偏差。 因果图的突出优势在于能够清晰呈现系统中变量相关性与因果推断偏差的来源,根据变量关系图类别,偏差来源也主要分为三类:过度控制偏差、混淆偏差、内生选择偏差。

跳转

过度控制偏差

过度控制偏差(Overcontrol Bias):指错误控制因果路径上的中介变量造成的偏差,该偏差会削弱甚至消除变量真实因果效用。该偏差通常发生在使用回归模型等统计方法时,试图通过额外的控制变量来消除混杂变量的影响,但却不慎控制了与因变量间存在中介作用的变量。

偏差发生的常用情况:

  1. 中介变量的错误控制:如果一个变量是原因变量和结果变量之间的中介变量(即它是两者之间关系的一部分),控制这个变量会阻断自变量对因变量的真实影响,从而导致对自变量影响的估计不准确。
  2. 过度调整:在模型中包括过多的控制变量,尤其是那些与研究假设无关或与因变量和自变量关系不明确的变量,可能会引入不必要的复杂性和偏差。

避免过度控制偏差的策略:尽可能不控制中介变量

  1. 理论驱动:在选择控制变量时,应基于理论或先前研究的指导,明确哪些可能是中介变量。
  2. 逐步分析:优先进行简单模型分析,逐步添加控制变量,观察每次添加对模型结果的影响。
  3. 敏感性分析:进行敏感性分析,检查不同模型规格对结果的影响,以评估结果的稳健性。

混淆偏差

混淆偏差(Confounding Bias):指混淆路径图中存在的混淆变量造成的偏差,即因果变量之间存在未截断的混淆路径,导致变量之间的相关性不仅包含因果关系,也包含非因果关系。

偏差发生的常用情况:

  1. 混淆变量与自变量相关:在自变量的不同水平下,混淆变量的分布不均匀。
  2. 混淆变量与因变量相关:混淆变量直接影响因变量,不论自变量的状态如何。

避免混淆偏差的策略:截断混淆路径,将混淆变量固定为常量值

  1. 随机化:随机分配实验对象到不同的处理组,可以有效控制已知和未知的混淆变量。
  2. 分层分析:将数据按混淆变量的不同水平分层,分别分析每一层的数据,以评估在控制混淆变量后自变量和因变量之间的关系。

如图所示:右图存在未截断的混淆变量"竞争意识",该变量在因果推断中未被控制。

内生选择偏差

内生选择偏差(Endogenous Selection Bias):也称为选择性偏差,是对撞路径图中对撞变量造成的偏差,而对撞变量产生主要与样本选择和数据的生成方式相关,导致两个无相关性的变量基于对撞变量衍生出新的相关路径。

偏差发生的常用情况:

  1. 自选择:研究对象根据与研究变量相关的特征自行选择是否参与研究。例如,更健康的人可能更倾向于参加健康研究。
  2. 样本选择:研究样本的选择只依赖于与研究变量相关的因素。例如,在劳动经济学研究中,只分析就业人群的收入,忽略了未就业人群,可能导致对收入影响因素的估计产生偏差。
  3. 遗漏变量:模型中未包括重要的变量,这些变量既影响选择过程,也影响研究的结果变量。

避免内生选择偏差的策略:避免对撞变量衍生新的相关性,不控制对撞变量

  1. 工具变量法:使用工具变量(IV)帮助解决内生性问题,工具变量影响选择过程,但不直接影响结果变量。
  2. Heckman 两步法:处理样本选择偏差的一种常用方法,首先使用一个选择模型(如Probit模型)估计选择概率,然后在结果方程中使用这一概率的逆米尔斯比率(Inverse Mills Ratio)来调整选择偏差。
  3. 倾向得分匹配:使用倾向得分匹配来平衡处理组和对照组在观测到的协变量上的分布,从而减少协变量引起的选择偏差。

总结

本文针对因果推荐进行概述,阐述因果推断的定义,是一种推断变量之间的因果关系的统计分析方法。介绍了辛普森悖论,反映了变量关联分析时存在偏差陷阱。除此之外,本文介绍了三类变量关系图路径:因果路径、混淆路径、对撞路径。在不同关系图下,会对应产生不同的估计偏差,分别是:过度控制偏差、混淆偏差、内生选择偏差。

  • 清华大学崔鹏:因果启发的学习、推断和决策
  • 因果推断常用计量方法图解与概览
  • 图形的逻辑力量:因果图的概念及其应用
  • 因果推断实用计量方法
  • A Survey on Causal Inference

本文标签: 因果推断概览