内生性会造成最小二乘法的系数估计有偏。这里我们需要了解几个问题。
- 什么是内生性
- 所谓偏差究竟是估计系数对谁的偏差
- 内生性为什么会导致偏差
从广义上讲如果给定的线性回归模型Y=α+β1X1+...+βkXk+e,如果干扰项和解释变量是相关的,那么我们就可以说这个线性模型存在内生性的问题。
第二个问题,在因果关系分析中,所谓的偏差是指希望求得的反应因果关系的系数,但是所有的估计系数却不反应因果关系的情况,也就是说关系系数对因果关系的系数偏差。
第三个问题不用过多解释啦,在前面的例子已经介绍的很清楚啦,只是换了一种说法,当我们的干扰项和我们的解释变量相关的时候就称为内生性。
内生性的来源
遗漏解释变量
假设模型Y=α+β1X1+β2X2+e,E(e∣X1,X2)=0,但是我们遗漏了X2,那么模型变成了Y=α+β1X1+v,如果X1和X2存在相关性导致遗漏变量成为了干扰项。
测量误差
解释变量的测量误差
解释变量的观测误差造成的内生性的原因是:使用了测量误差的解释变量造成了干扰项里包含了测量误差,因而导致干扰项与观测的解释变量相关,都包含了误差。
被解释变量的测量误差
如果使用误差的被解释变量虽然造成了干扰项里包含了测量误差,但是解释变量并没有测量误差,因此二者不相关。不过带来的后果是由于误差变大,回归结果会显著性的降低。
互为因果
如果两个变量互为因果,任何一方可以作为另一个的解释变量,那么任何一个单方面的回归都是存在内生性的,也称为逆向因果。
如果Y1和Y2互为因果就有如下的关系
Y1=β1X1+σ1Y2+e1(1.1)
Y2=β2X2+σ2Y1+e2(1.2)
X1和X2均与e1和e2不相关,且e1和e2也不相关。
可见互为因果造成内生性的原因是,当公式1.1中干扰项e1发生变化,造成被解释变量Y1发生变化,因果存在逆向因果,公式1.2中Y1成为了解释变量,其变化造成了Y1的变化,进而导致公式1.1中干扰项e1的变化,和解释变量Y2的变化形成相关性。最终简单回归方法无法区别与衡量哪部分被解释变量的变化是由于解释变量造成的。