因果推断(九)--样本自选择模型

不知道大家注意了没有,因果推断的假设往往是通过样本去做因果推断,如果样本是随机抽抽取的,那么我们得出的结论也是准确的。而现实的生活中我们的样本往往是自行选择的,带来的影响是我们不能很好的估计它的平均处置效应。这里我可以举一个例子,我们想通过抽取样本来分析智商对大家成绩的影响,所以我们从上大学的样本中抽取了若干样本,但是我们发现有一些智商足够但是没有上大学的样本学校成绩是缺失的。那么这就给这个估计带

因果推断(八)--双重差分方法

今天又要学习一种估计处置效应的方法,在讲解双重差分法的时候,我们先来看看单重差分法是怎么做的。单重差分法我们以一个例子来看看单重差分法

因果推断(七)--匹配方法

匹配方法的思路十分简单,它的基本原理就是找到可观测变量相同的情况下接受处置的个体和未被接受处置的个体,通过对比他们之间的差异从而计算处置效应。描述起来十分通俗易懂,但是实际操作的时候,它会有一些方法,接下来我们来看看这一章的内容。匹配方法的理解如果处置组和控制组的个体是随机分配的,那么它的估计应该是不存在差异的。换言之就是处置状态不受到可观测变量和不可观测变量的混淆影响。这里我们简单举例一个场景,

因果推断(六)--处置效应

之前我们定义因果关系都是保证条件不变,因某个特定的解析变量的变化导致的被解释变量的变化,定义为因果效应,而实际的工作中,几乎是不会有这样的机会,我们面对的场景往往是一个动作做了以后,不知道如果这个时刻不做会取得如何的效果。这章咱们就要考虑一下这个因果推断的难题啦。潜在结果如果某个个体受到了处置行为,$D_$(例如服药),他的后果就是$Y_$,为$Y_(1)$,如果没有接受处置那么就是$Y_(0)$

因果推断(五)--标准误差

接着上文说假如$Y=\alpah + \betaX+e$以及

因果推断(四)--线性回归假设

之前的讲解中,我们基本不会涉及样本的选取,但是在实际的场景中是使用样本观测值去估计回归模型里的系数,所以样本的选取对于分析问题起到至关重要的作用。固定解释变量固定解释变量是指解释变量在重复抽样中,因为实验条件可以人为的固定解释变量的数值。例如在农业实验中,可以将浇水量和施肥量作为解释变量X,将产量作为被解释变量。很明显以上两个变量是可以控制的。那么在固定解释变量下会存在如下的假设。解释变量是固定值

因果推断(三)--内生性和因果关系

内生性会造成最小二乘法的系数估计有偏。这里我们需要了解几个问题。什么是内生性所谓偏差究竟是估计系数对谁的偏差内生性为什么会导致偏差从广义上讲如果给定的线性回归模型$Y=\alpha+\beta_{1}X_{1}+...+\beta_{k}X_{k}+e$,如果干扰项和解释变量是相关的,那么我们就可以说这个线性模型存在内生性的问题。第二个问题,在因果关系分析中,所谓的偏差是指希望求得的反应因果关系的

因果推断(二)--最小二乘法

今天我们来看看机器学习入门课程中的最小二乘法,是不是感觉咱们越学习越回退啦,其实学习的过程是这个样子,你知道的越多,你之前的认知发生改变的概率越大,可能之前是硬性的理解,现在是真正的理解,好啦,话不多说,咱们来看看从因果推断的角度如何看待最小二乘法这个算法。回归模型使用如下的表

因果推断(一)--线性回归

讲线性回归之前,我们先来接受因果推断的一些名词,充充场面。记得咱们上节讲的教育程度(EDU)对收入(INC)的因果影响吗?这里我们将EDU和INC称为可观测变量,EDU也称为处置变量,智商(IQ)是另一个可观测变量。由于EDU和IQ都会影响收入INC,它们同时被称为解释变量,INC称为被解释变量。要单独估计EDU和INC的因果影响要控制IQ对INC的影响。我们经常把无法观测的变量称为干扰项e,所以

因果推断(零)--辛普森悖论

这个系列我们来介绍一下因果推断,这个时候第一反应应该是因果推断是什么呢?解决什么问题的呢?咱们举几个例子来说明下,例如你会不会经常有这样的疑问?读博士能增加收入吗?如果能增加增加多少呢?其实这其中就包含了因果推断的内容,表面你是抛出了一个疑问,其实你是想了解读博士和收入增加有没有因果关系,“别人家的孩子”的成就中,读取博士到底与他们的生活有多大关系。是不是因为读取了博士才能收入高高。废话了这么多,
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×