之前我们定义因果关系都是保证条件不变,因某个特定的解析变量的变化导致的被解释变量的变化,定义为因果效应,而实际的工作中,几乎是不会有这样的机会,我们面对的场景往往是一个动作做了以后,不知道如果这个时刻不做会取得如何的效果。这章咱们就要考虑一下这个因果推断的难题啦。
潜在结果
如果某个个体受到了处置行为,Di(例如服药),他的后果就是Yi,为Yi(1),如果没有接受处置那么就是Yi(0),我们称两种结果为潜在结果(potential outcome).这就是我们经常面临的状况,如果一个人服药,那么我们就能观测到服药后的结果,但是一定观测不到他不服药的结果。
个体处置效果
一个处置行为Di对个体i的处置效应是个体接受处置的潜在结果和没有接受处置的潜在结果的差异。
ri=Yi(1)−Yi(0)
处置效应r就是处置行为D对Y的因果效用。
平均处置效应
一个处置行为对不同个体的处置效应可能是不同的, 也就是个体处置效应存在异质性。因此我们一般是使用平均处置效(ATT)应来衡量一个处置行为对个体的效果。
ATT=E[Yi(1)−Yi(0)∣Di=1]=E[Yi(1)∣Di=1]−E[Yi(0)∣Di=1]
ATT一般用于衡量一个处置行为对接受处置的个体处置效应。与此对应是未接受处置个体中的处置效应ATU。
ATU=E[Yi(1)−Yi(0)∣Di=0]=E[Yi(1)∣Di=0]−E[Yi(0)∣Di=0]
ATU用于衡量一项处置行为对为接受处置个体的平均处置效应。
最后就是总体的平均处置效应ATE。
ATE=E[Yi(1)−Yi(0)]=E[Yi(1)]−E[Yi(0)]
ATE是ATT和ATU的加权平均,它也可以使用如下的表示形式。
ATE=w×ATT+(1−w)×ATU
其中w 表示处置个体Di=1的比例
观测结果
在实际的工作中,我们不能同时观测到Yi(1)−Yi(0),这就是因果推断的难点。
我们的观测结果只是个体根据接受处置状态显现出来的对应的潜在结果,称为观测结果,观测结果Yi可是表示为
Yi=Yi(0)+[Yi(1)−Yi(0)]×Di
Di=1表示接受处置。
反事实结果
对于处置个体,Yi(1),没有观测到的Yi(0)就是反事实结果,如何估计反事实结果,是估计处置效应的关键。
我们大部分的时间是使用观测结果来评估处置效应,那么会产生怎样的误差呢?
使用观测结果来评估处置效应的误差
处置观测效果估计个体处置效果的可能偏差
当i接受处置,j没有的接受处置的情况下,我们想知道接受处置个体i个处置效应,如果用个体i的观测结果Yi减去个体j的观测结果。
Yi−Yj=Yi(1)−Yj(0)=Yi(1)−Yi(0)+Yi(0)−Yj(0)
这里我们可以拆开来看Yi(1)−Yi(0)表示i的处置效应ri,而Yi(0)−Yj(0)称之为偏差。这里有个很有趣的事情就是,如果Yi(0)−Yj(0)<0,就会导致低估了实际的效果。所以个体的不同在,他们潜在的差异是没有办法消除的。所以一般我们会使用如下的方式。
- 关注平均处置效果
目前我们至少知道这个误差是来自于哪里啦,豁然开朗。
处置观测效果估计平均处置效果的可能偏差
如果处置 |
如果不处置 |
处置情况 |
平均观测结果 |
$T_{1}=E[Y_{i}(1)|D_{i}=1] $ |
T0=E[Yi(0)∣Di=1](反事实) |
Di=1(处置组) |
T1=E[Yi(1)∣Di=1] |
C1=E[Yi(1)∣Di=0](反事实) |
C0=E[Yi(0)∣Di=0] |
Di=0(控制组) |
C0=E[Yi(0)∣Di=1] |
ATT=T1−T0ATU=C1−C0
对于处置组来讲平均观测效果T1,反事实结果T0,对于控制组来讲,平均观测效果C0,反事实结果C1,一种简单的估计平均处置的结果是用T1−C0。
T1−C0=ATTT1−T0+ATT估计误差T0−C0(1.1)
上面这个公式里,我们只是添加一个T0和减去一个T0。同理我们增加一个C1就有如下的表达式。
T1−C0=ATUC1−C0+ATU估计误差T1−C1
最复杂的来啦。
T1−C0=ATEw(T1−T0)+(1−w)(C1−C0)+ATE估计偏差=w×ATT估计偏差+(1−w)×ATU估计偏差w(T0−C0)+(1−w)(T1−C1)
造成ATT的偏差的原因是T0−C0=0,也就是处置组和未处置组平均未处置潜在结果存在误差。造成ATU的偏差的原因是T1−C1=0。所以大家发现没有,采用朴素的估计量处置效应产生的偏差根本原因是接受处置与否并非随机的,就是是否接受处置与潜在结果是相关的。我们称为选择偏差。
实例
下面我们来看一个实例看看啰嗦了这么一大堆到底有什么用途。咱们看看如下的数据。
个体 |
处置 |
不处置 |
处置效应 |
处置状态 |
观测结果 |
1 |
5 |
2 |
3 |
1 |
5 |
2 |
7 |
3 |
4 |
1 |
7 |
3 |
4 |
1 |
3 |
1 |
4 |
4 |
3 |
2 |
1 |
0 |
2 |
5 |
8 |
3 |
5 |
0 |
3 |
套用的我们的小公式。
如果处置 |
如果不处置 |
处置情况 |
平均观测结果 |
T1=E[Yi(1)∣Di=1]=35+7+4=5.3 |
T0=E[Yi(0)∣Di=1]=32+3+1=2(反事实) |
Di=1(处置组) |
T1=E[Yi(1)∣Di=1]=5.3 |
C1=E[Yi(1)∣Di=0]=23+8=5.5(反事实) |
C0=E[Yi(0)∣Di=0]=22+3=2.5 |
Di=0(控制组) |
C0=E[Yi(0)∣Di=1]=2.5 |
ATT=T1−T0=35+7+4−32+3+1=3.3ATU=C1−C0=23+8−22+3=3
如果处置组3人,控制组两人那么w就是53.很容易计算ATE=3.18,很明显实际情况中我们根本观测不到同一个个体接受处置和不接受处置的情况,所以采用朴素估计量,应该的计算方式是。
T1−C0=35+7+4−22+3=2.8
这个值和真实值是有一定的差异的。但是现实中也是最常见的一种方式。
随机分配
由于上文介绍的计算方法中存在选择偏差,所以一般采用随机处置的方式排除这种干扰。(选择服药的一般是身体状况较弱的)
随机分配可以简单理解为通过投掷硬币的方式来决定是否触发处置。高端表示法就是如下数学公式表达。也就是说个体的潜在结果和处置状态是独立的。
(Yi(1),Yi(0))⊥Di
随机分配也可以理解为一种确保处置组和控制组的可观测特征、不可观测特征和处置效应是分布完全相同的方法,且是相互独立的。
那么假如个体的潜在结果可以表示为可观测特征Xi,不可观测特征ei以及处置效应ri的线性函数。
Yi(0)=a+bXi+eiYi(1)=a+ri+bXi+ei
也就是说在随机处置的情况下,由于Yi(0)独立于Di,就会有如下处置结论。
E[Yi(0)∣Di=0]=E[Yi(0)∣Di=1]=E[Yi(0)]
是不就是咱们之前提到的
T0=C0
这样的结论是可以让我们用观测结果C0来衡量不可观测结果的反事实结果T0,在这种情况下朴素估计量T0−C0去估计接受处置的处置效应ATT就是没有偏差的。我们会以会看公式1.1,同理ATU也是没有偏差的。
控制可观测变量
这里其实十分简单,咱们就提一句就行了,如果不是随机分配处置变量,那么处置组和控制组的平均潜在结果可能存在差异。如果潜在结果是因为个体的可观测特性造成的。我们可以控制这个可观测特征进行比较。例如,我们做药物实验的时候,为了规避到年龄上的影响,我们会分类30岁组合40岁组来分别做处置,并且分开观察结果。