元学习(一)--自适应神经网络

本章节中我们来介绍一个具有适应能力的神经网络学习框架CSN,接下来咱们就来看看这个网络是如何学习的。网络整体架构上面这个图是整个学习框架的整体架构,接下来我们来一点一点的讲解其中的细节。假设我们一大批数据的训练任务已经训练好,突然来了一个新的任务,怎么把我们已经训练好的网络进行一定的复用快速的应用到新任务呢?这就是本文一个要解决的问题。$$\begin{cases}\begin{align}\en

元学习(零)--预训练神经网络

从本章节开始我们准备进入一个新的领域进行学习,元学习(meta learning),听起来是不是屌屌的,确实是这样,这里我们不得不总结一下之前咱们介绍各种的学习方法,包括经典的学习方法和神经网络的学习方法,毫不意外的它们有一个共同且残酷的名字(Weak AI),是的凡是针对一个特定的一个领域进行学习的,都可以称之为弱学习器。而本章节的介绍的一系列建模方法它们学习的方式和角度与之前的学习方法会有很大

深度强化学习(一)--DQN深度强化学习

上篇文章咱们介绍了Qlearning,这个时候正好我们就机会来详细看看DQN的学习方式,同样的之前的章节中我们介绍了DQN的原理,但是没有一个特别好的例子,本节咱们就来补上这一块。DQN的使用场景就是我们发现使用Qlearning能够在离散状态空间下解决任何强化学习问题,但是如果状态空间是无限的或者是连续的怎么办呢? DQN的核心思路是将原有的离散状态空间表示为一个函数f。$$f(s,a)=Q(s

强化学习(十一)--Qlearning实例

通过这一个系列的学习,是否发现学习了很多东西,又好像啥也没学到,学习经常就是这样一个状态,第一个学习的时候往往都是伪装自己明白啦,当某个时间点真正用到了,才知道原来这些知识能够这样的使用,本章咱们就为Qlearning讲解一个例子,方便我们理解。放学去网吧下面这个例子,咱们举一个放学去网吧的例子吧,空间图如下图。左上角的小孩就是你,中间的是老师,碰到老师肯定就不会让你去网吧啦,右下角的是最终目标带

马尔可夫决策过程(三)--值迭代算法

节咱们举例子讲到如何计算马尔可夫的值函数,本章节主要介绍一些常用的算法。值迭代算法对$i \in S$通过计算$$v^{n+1}(i)=max_{a \in A(i)}\{r(i,a)+\beta \sum_{j \in S} p(j|i,a)v^{n}(j)\}$$如果$$v^{n+1}(i)-v^{n}(i)<\frac{\sigma(1-\beta)}{2\beta}$$进入下一步,否

马尔可夫决策过程(二)--无限阶段折扣模型

决策者在整个决策阶段收到一系列的报酬折现以后累加起来就是具体的效用函数,我们称之为无限阶段的折扣模型。具体的表达如下$$V_{\beta}(i,\pi)=\sum_{0}^{\infty} \beta^{t} E_{\pi}^{i}[r(Y_{t}, \Delta_{t})]$$从上面的表达式折扣因子就是$\beta$, $\Delta_{t}$表示采用不同的动作,$Y_{t}$表示状态的变换。这

马尔可夫决策过程(一)--有限阶段模型

马尔可夫决策过程的经典五元组,我们再来看看。$${T, S, A(i), p(*|i,a), r(i,a)}$$这就是构成马尔可夫决策过程的环境,当你在业务问题找到这些变量的关系的,就能够使用马尔可夫决策构造一个经典的模型。本章节我们来讲解有限阶段模型。最优准则我们先来介绍报酬效用函数的定义

马尔可夫决策过程(零)--问题介绍

马尔可夫决策被经常用在序列决策的场景中,例如强化学习中说到的迷宫问题,以及翻阅本站点曾经讲到的MM(map match)路网匹配问题等等,都是这类理论一个比较的应用,目的是在一个决策空间内,做一系列的决策从而保证最后的结果是最优的。现在我们要开始学习马尔可夫决策过程的相关理论和知识啦,这部分知识其实是十分复杂、枯燥、无味的,但是作为强化学习的最基础的理论,又是逃不掉的一部分,随意要尝试硬着头皮看看

因果推断(十)--断点回归

不知道大家发现了没有,我们在谈论因果推断的时候往往都是构造一个随机环境,从而得到一个置信度较好的结果,但是因为种种原因,我们现实中能够提供随机环境的机会并不多,那么断点回归实际上就是提供了一种在非随机实验的环境下如何去做因果分析。因果推断的思路十分好理解,其实就是我们找到观测特征的那个临界点,观察临界点前后的结果变量的变化,从而起到了估计处置效应的作用。断点回归的理解我们来考虑这样一种场景,假设政

因果推断(九)--样本自选择模型

不知道大家注意了没有,因果推断的假设往往是通过样本去做因果推断,如果样本是随机抽抽取的,那么我们得出的结论也是准确的。而现实的生活中我们的样本往往是自行选择的,带来的影响是我们不能很好的估计它的平均处置效应。这里我可以举一个例子,我们想通过抽取样本来分析智商对大家成绩的影响,所以我们从上大学的样本中抽取了若干样本,但是我们发现有一些智商足够但是没有上大学的样本学校成绩是缺失的。那么这就给这个估计带

因果推断(八)--双重差分方法

今天又要学习一种估计处置效应的方法,在讲解双重差分法的时候,我们先来看看单重差分法是怎么做的。单重差分法我们以一个例子来看看单重差分法

因果推断(七)--匹配方法

匹配方法的思路十分简单,它的基本原理就是找到可观测变量相同的情况下接受处置的个体和未被接受处置的个体,通过对比他们之间的差异从而计算处置效应。描述起来十分通俗易懂,但是实际操作的时候,它会有一些方法,接下来我们来看看这一章的内容。匹配方法的理解如果处置组和控制组的个体是随机分配的,那么它的估计应该是不存在差异的。换言之就是处置状态不受到可观测变量和不可观测变量的混淆影响。这里我们简单举例一个场景,
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×