可解释性机器学习(一)--内部解释模型

咱们继续讲解可解释性机器学习,咱们开始一起来看看一些算法啦。先从简单的算法开始。

线性模型

线性模型经常被当成解释性模型的开山作。

Y=w0+w1X1+..+xnXn+σ(1.1)Y=w_{0}+w_{1}X_{1}+..+x_{n}X_{n}+\sigma \tag{1.1}

通过模型回归w来解释每个维度对Y的影响,一部分是残差σ\sigma, 它是响应变量Y与的实际值与模型给出的预测值Yˉ\bar{Y}的差距。另一部分是参数X的拟合程度。

分析

线性回归的优势主要体现

  1. 思路简单,易于实现,运用速度快
  2. 对于X与Y满足线性关系的数据很有效
  3. 解释性很强,建模结果有利于决策分析

缺点也比较明显

  1. 线性回归只能处理X和Y满足线性关系得数据,且要求σ\sigma满足正态分布,实际中很多数据是不支持的
  2. 与常见的机器学习相比,线性模型的精度较低。

广义线性模型

上文提到了很多数据分布是不符合线性回归的要求的,为了能让线性模型适用于更多的数据问题,可以对数据做一些转换,使转换后的数据满足线性回归的要求,这就是要讲的广义线性模型(Generalized liner model,GM)。

g(E(YX))=XW,YXf(YX)(2.1)g(E(Y|X))=XW, Y|X \sim f(Y|X) \tag{2.1}

g表示链接函数,满足平滑可逆的条件,f表示给定样本下的X下的Y的分布。 其核心思想是当Y或者σ\sigma不服从正态分布的情况下,可以找一个链接函数,同时学习合适的模型参数W,使得模型的线性部分挺相应的预测值,能够尽量的逼近Y的链接函数转化后的值。
当Y是离散数据的时候,选择二项式分布,取链接函数E(YX)=lnY1YE(Y|X)=ln^{\frac{Y}{1-Y}},学习合适的参数W使得模型的线性部分输出值XW尽可能的接近Y经过连接函数转化后的值。就是XW=lnY1YXW=ln^{\frac{Y}{1-Y}}.
不过GM也不是万能的,当Y的分布服从指数分布的时候,它才能派上用场。

模型解释性

GM的同线性模型的可解释性保持一致,虽然中间经过了链接函数的转换,但是拟合的权重w依然可以用于解读特诊与结果的影响关系。

分析

GM的优势主要有

  1. 简单易于实现
  2. 不拘泥于Y的分布,使用范围更广
  3. 解释性比较强有利于决策分析

缺点如下

  1. 分布上虽然支撑的更大的指数分布,但是仍然有一些数据分布式不支持的
  2. 精度相比线性模型有提升,但是相比一般的机器学习模型仍然比较低。

广义加性模型

广义加性模型是解决广义线性模型只能只能进行线性拟合的缺点。

使用广义加性模型之前,一般会绘制一个X与Y的散点图查看二者的关系,当X和Y存在非线性关系的时候,但是又难以通过图像确定二者之间的非线性关系的具体形式,广义加性模型提供一种替代方案,它允许我们在预先不确定X和Y的关系的情形下,使用非线性平滑项拟合模型

g(E(YX))=s0+j=1dsj(Xj)(3.1)g(E(Y|X))=s_{0}+ \sum_{j=1}^{d} s_{j}(X_{j}) \tag{3.1}

s0s_{0}表示截距项, sjs_{j}表示非参光滑函数, g表示连接函数。 例如Y是离散的变量服从泊松分布,取链接函数g(E(Y|X))=lnY时,学习合适的形式使得模型的加性部分输出值s0+j=1dsj(Xj)s_{0}+ \sum_{j=1}^{d} s_{j}(X_{j}),尽可能地接近相应变量Y经过连接函数转化后的值lnY。
实际应用中我们发现,并不是每个参数X和Y都是非线性关系,如果都使用平滑函数,那么计算量是巨大的,这个时候就出现了半参数广义加性模型

g(E(YX))=s0+l=bqsj(Xl)+m=apXmW(3.2)g(E(Y|X))=s_{0}+ \sum_{l=b}^{q} s_{j}(X_{l})+\sum_{m=a}^{p}X_{m}W \tag{3.2}

其中a到p表示特征序号,b到q表示非线性特征序号。

可解释性

那么加性模型如何呈现可解释性,例如拟合出来的方程如下

Y=2.51+0.27x1+sx(X2)(3.3)Y=2.51+0.27x_{1}+s_{x}(X_{2}) \tag{3.3}

通过上面的拟合结果可以知道,x1每增加一个单位,Y增加0.27个单位,但是x2是通过s2s_{2}来表达的,难以使用数学公式表达,但是可以将x2x_{2}s2s_{2}的关系绘制出来。
WechatIMG12
这个时候可以推测,随着x2x_{2}的增加,Y呈现先轻微减少,然后再增加,最后再减少的趋势。

模型的分析

对于缺点就是,广义加性模型对比常用的模型,精度仍然不是十分高,而且过程中求解计算量巨大。

决策树模型

决策树模型相信大家一定不会陌生,也是做解释性的一个通用模型。
这里直接以解释性的视角说一下模型的特点
决策树模型的优点是

  1. 计算量小
  2. 模型结果通过规则产生,解释性好

缺点也是比较明显

  1. 容易产生一个过于复杂的模型进而过拟合
  2. 数据中微小的变化可能导致生成不同的树,稳定性较差。
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×