本章介绍基于几何特征变换的迁移学习, 与统计特征迁移不同的是考虑到数据中经常存在一种空间几何结构,这个时候通过空间几何结构能够简洁而有效迁移获得相应的结果。几何变换有以下几种方法,分别是子空间变化和流行空间变换以及最优传输法。接下里的内容就一一介绍这些内容。
问题定义
我们再来看迁移学习的统一表现形式。
f∗=arg minNs1i=1∑N2L(vif(xi),yi)+λR(T(Ds),T(Dt))(1.1)
这里在考虑变换函数T的时候,往往从数据的几何特征出发,最终还是围绕同样的目标进行优化。
子空间变换法
子空间变换法通常假设源域和目标域在数据变换以后有着相似的分布。而自空间是可以进行数据的分布对齐,这里介绍一种最简单的自空间迁移法的方式SA, SA算法直接寻找一个线性变换M,将Xs,Xt分别表示源域和目标域经过PCA以后的数据,前d维特征向量组成的特征矩阵,用这个特征向量表示其子空间。SA的优化目标如下
F(M)=∣XsM−Xt∣T(2.1)
M是可以通过变换和学习获得。由于子空间的变换的正交性,XsXt=I, 可以对上述的优化直接求解
F(M)=∣XsTXs−XsTXt∣2=∣M−XsTXt∣2(2.2)
这样可以直接求的M。
我们通过求解一个转换矩阵M,使其能够对源域和目标域的特征进行转换后距离相近,那么使用这个子空间进行分类,优化这个分类效果就可以优化模型进行目标域的分类。 其他的方法都是基于此类方法进行改进,这里就不在赘述啦。
流形学习
流形学习引入了许多的新的概念,其核心思想是在源域和目标域中间找到几个点,然后一步一步的将源域的知识迁移到目标域,从而达成迁移学习的目标。

最早期的方法是SGF(sampling geodesic flow)的方法,但是存在一个超参数d的问题,d是中间取几个点的问题,后来在测地线流式核方法中获得解答,而且还解决了如果存在多个源域的情况下,使用哪个源域来做迁移的决策(Rank of Domain)。这里的方法大家如果感兴趣可以自行调研,这里就不过多展开啦。
最优传输法
最优传输问题的描述是有M个仓库起火啦, 需要往这M个仓库调用消防队员,现有的消防队员分布在N个仓库中,如何调用能够用最小化的成本解决N个仓库的火灾。进一步形式化定义N个仓库需要的消防员数量为Hi,位置为yi, 而这个N个仓库的消防员数量为Gi,位置为xi, 最后任意两个仓库的距离是c(xi,yj)。那么优化的目标是
mini,j=1∑N,MTi,jc(xi,yi)s.t.j∑Tij=Gii∑Tij=Hj
Ti,j表示到N个仓库的消防员数。通过描述这个背景相信大家已经有点感觉知道怎么做这个迁移学习的方案啦, 从一个分布最小化的代价迁移到另一个分布不就是迁移学习的本质吗?
最优传输到迁移学习
反映到迁移学习上,对应于需要做到一个映射函数,能够保证用最小化的代价将源域映射到目标域中。
D(P,Q)=∫X×Yπ(x,y)c(x,y)dxdy(3.1)
这个公式标的是对于分布P和Q,有很多种迁移方案π(运筹方案),每种方案的成本是c(x,y), 一般大家函数是c(x,y)=∣x−y∣2, 所以转化以后就变成了
D(P,Q)=∫X×Yπ(x,y)∣x−y∣2dxdy(3.2)
不同于传统的特征变化方法,最优的传输研究问题是学习一个源域到目标域的点一点的关联矩阵T, 经过T的变换后,源域能够用最小化的代价变成目标域。 现在就关键点就变成了矩阵T如何获得的问题?最优传输通常是使用变换代价来衡量变换成本C(T).
C(T)=∫c(x,T(x))dμ(x)(3.3)
μ(x)表示数据分布,c(x,T(x))表示代价函数,也可以是距离函数。进一步抽象
γ0=arg min∫S×Tc(xs,xt)dγ((xs,xt))
γ表示一种迁移策略。这里其实通过一个运筹策略,求解源域到目标域的最小代价迁移策略。
当我们使用的时候就可以使用这种迁移方案,将源域的输入进行加权(方案)进行学习。这样的模型就能在目标域使用啦。
总而言之
最后整体看看本节的迁移学习, 核心思路其实没有任何变化,不管是几何变换还是特征变换,最终都是拉近源域和目标域的距离,能够通过源域的学习代替目标域的学习。