之前的讲解中,我们基本不会涉及样本的选取,但是在实际的场景中是使用样本观测值去估计回归模型里的系数,所以样本的选取对于分析问题起到至关重要的作用。
固定解释变量下的线性回归假设
固定解释变量是指解释变量在重复抽样中,因为实验条件可以人为的固定解释变量的数值。例如在农业实验中,可以将浇水量和施肥量作为解释变量X,将产量作为被解释变量。很明显以上两个变量是可以控制的。那么在固定解释变量下会存在如下的假设。
假设1:解释变量是固定值
这一点其实十分好理解,X=(X1,...Xn)是固定假设,意味着对于N个观测点,每个观测点都是固定的。
假设2:Y=Xβ+e
假设2则认为被解释变量是解释变量的线性函数加上一个干扰项。这里的线性关系是针对解释变量系数而言的。例如Y=β0+β1X+μ、Y=β0+β1sin(x)+μ。 而非线性关系则是Y=β0+β1Xβ2+μ,在实际应用中我们可以把一些非线性的模型转化为线性模型,例如同时取log操作。
很明显我们的现实生活中不全是线性关系,那么我们通过线性关系近似就要看真实关系的非线性程度啦,由于线性关系假设极大的方便了计算,因此我们通常并不纠结线性关系假设。
假设3:E[e]=0
这个假设是指每个观测点i的干扰项的均值为0.
对于每个观测点在重复实验中,干扰项的值时正时负,但是平均值为0.这个假设保证解释变量固定的情况下,我们可以通过重复采样去除干扰项的影响,从而得到解释变量和被解释变量的因果关系。
假设4:E[ee′]=σ2I
假设4是关于不同观测点干扰项协方差的假设。
E(ee')=
\begin{equation}
\left(
\begin{array}{ccc}
E(e_{1}e_{1}) & E(e_{1}e_{2}) & E(e_{1}e_{n})\\
E(e_{2}e_{1}) & E(e_{2}e_{2}) & E(e_{2}e_{n})\\
E(e_{n}e_{1}) & E(e_{n}e_{2}) & E(e_{n}e_{n})\\
\end{array}
\right)
\end{equation}
也可以表示为
\begin{equation}
\left(
\begin{array}{ccc}
\sigma_{1}^{2} & \sigma_{12} & \sigma_{1n}\\
\sigma_{21} & \sigma_{2}^{2} & \sigma_{2n}\\
\sigma_{n1} & \sigma_{n2} & \sigma_{n}^{2}\\
\end{array}
\right)
\end{equation}
进一步简化我们可以替换上面公式中的σij=Cov(ei,ej)=E(ei,ej)−E(ei)E(ej)=E(eiej),所以对角线上每个观测点的干扰项的方差,对角线外是每个不同观测点的协方差。由于每个观测点的干扰项来源是不一样的,而且这些干扰因素之间可能是相关的,它们的存在形式会影响估计系数的精确度。所以假设4对不同的观测点的干扰项方差和相关性做了一个假设。它们方差相同,而且相关性为0.这个假设便于我们判断样本估计系数的精确度。然而这个假设实际情况中是不成立的,违背该假设会导致异方差和自相关问题,这个我们后面在详细讲解。
假设5:e服从N(0,σI)
这个假设是说每个观测点的干扰项满足正态分布,这里就不多做解释,这个条件是我们做大部分数据挖掘的先决条件。
假设6:解释变量之间不存在共线,并且观测点数量大于被解释变量数
这个假设我们能够通过N个观测点得到k个解释变量系数的必要条件。如果解释变量之间存在共线,我们无法分辨所有解释变量系数的值。这个在之前的讲解中也说过,这里就不赘述啦。观测点数量之所以要多于解释变量的个数,是因为如果有k个解释变量,但是观测点小于k,就意味方差数量小于k,当然解不出来k个系数啦。
随机解释变量下的线性回归假设
假设1:解释变量是随机的
解释变量是随机的是指观测点i的解释变量X是从某个总体分布中抽取而来。这是我们经常做数据挖掘的场景。
假设2:$Y=X \beta +e $
线性关系假设和固定解释变量假设没有本质区别,只是解释变量不再是固定的而已。
假设3:E[e∣X]=0
这里和上面唯一的不同是,条件的成立来自于任意抽取后的样本集合X,这个就意味着每个观测点的干扰项的均值不会随着解释变量的值变化而变化。
假设4:E[ee′∣X]=σ2I
假设5:e∣X服从N(0,σI)
假设6:解释变量之间不存在共线,并且观测点数量大于被解释变量数
以上几个假设都与固定解释变量下的场景一样,只是样本集合固定的情况下得出的关系结论,咱们就不浪费口舌啦。
综述
通过上面的描述,大家有没有一点惊讶,我们之前学习线性回归的时候根本没有想过这么多,所以一个简单的算法在不同的研究领域下,确实是不尽相同的,所以读文章的你真的明白线性回归了吗?