马尔可夫决策过程(二)--无限阶段折扣模型

决策者在整个决策阶段收到一系列的报酬折现以后累加起来就是具体的效用函数,我们称之为无限阶段的折扣模型。具体的表达如下$$V_{\beta}(i,\pi)=\sum_{0}^{\infty} \beta^{t} E_{\pi}^{i}[r(Y_{t}, \Delta_{t})]$$从上面的表达式折扣因子就是$\beta$, $\Delta_{t}$表示采用不同的动作,$Y_{t}$表示状态的变换。这

马尔可夫决策过程(一)--有限阶段模型

马尔可夫决策过程的经典五元组,我们再来看看。$${T, S, A(i), p(*|i,a), r(i,a)}$$这就是构成马尔可夫决策过程的环境,当你在业务问题找到这些变量的关系的,就能够使用马尔可夫决策构造一个经典的模型。本章节我们来讲解有限阶段模型。最优准则我们先来介绍报酬效用函数的定义

马尔可夫决策过程(零)--问题介绍

马尔可夫决策被经常用在序列决策的场景中,例如强化学习中说到的迷宫问题,以及翻阅本站点曾经讲到的MM(map match)路网匹配问题等等,都是这类理论一个比较的应用,目的是在一个决策空间内,做一系列的决策从而保证最后的结果是最优的。现在我们要开始学习马尔可夫决策过程的相关理论和知识啦,这部分知识其实是十分复杂、枯燥、无味的,但是作为强化学习的最基础的理论,又是逃不掉的一部分,随意要尝试硬着头皮看看

因果推断(十)--断点回归

不知道大家发现了没有,我们在谈论因果推断的时候往往都是构造一个随机环境,从而得到一个置信度较好的结果,但是因为种种原因,我们现实中能够提供随机环境的机会并不多,那么断点回归实际上就是提供了一种在非随机实验的环境下如何去做因果分析。因果推断的思路十分好理解,其实就是我们找到观测特征的那个临界点,观察临界点前后的结果变量的变化,从而起到了估计处置效应的作用。断点回归的理解我们来考虑这样一种场景,假设政

因果推断(九)--样本自选择模型

不知道大家注意了没有,因果推断的假设往往是通过样本去做因果推断,如果样本是随机抽抽取的,那么我们得出的结论也是准确的。而现实的生活中我们的样本往往是自行选择的,带来的影响是我们不能很好的估计它的平均处置效应。这里我可以举一个例子,我们想通过抽取样本来分析智商对大家成绩的影响,所以我们从上大学的样本中抽取了若干样本,但是我们发现有一些智商足够但是没有上大学的样本学校成绩是缺失的。那么这就给这个估计带

因果推断(八)--双重差分方法

今天又要学习一种估计处置效应的方法,在讲解双重差分法的时候,我们先来看看单重差分法是怎么做的。单重差分法我们以一个例子来看看单重差分法

因果推断(七)--匹配方法

匹配方法的思路十分简单,它的基本原理就是找到可观测变量相同的情况下接受处置的个体和未被接受处置的个体,通过对比他们之间的差异从而计算处置效应。描述起来十分通俗易懂,但是实际操作的时候,它会有一些方法,接下来我们来看看这一章的内容。匹配方法的理解如果处置组和控制组的个体是随机分配的,那么它的估计应该是不存在差异的。换言之就是处置状态不受到可观测变量和不可观测变量的混淆影响。这里我们简单举例一个场景,

因果推断(六)--处置效应

之前我们定义因果关系都是保证条件不变,因某个特定的解析变量的变化导致的被解释变量的变化,定义为因果效应,而实际的工作中,几乎是不会有这样的机会,我们面对的场景往往是一个动作做了以后,不知道如果这个时刻不做会取得如何的效果。这章咱们就要考虑一下这个因果推断的难题啦。潜在结果如果某个个体受到了处置行为,$D_$(例如服药),他的后果就是$Y_$,为$Y_(1)$,如果没有接受处置那么就是$Y_(0)$

因果推断(五)--标准误差

接着上文说假如$Y=\alpah + \betaX+e$以及

因果推断(四)--线性回归假设

之前的讲解中,我们基本不会涉及样本的选取,但是在实际的场景中是使用样本观测值去估计回归模型里的系数,所以样本的选取对于分析问题起到至关重要的作用。固定解释变量固定解释变量是指解释变量在重复抽样中,因为实验条件可以人为的固定解释变量的数值。例如在农业实验中,可以将浇水量和施肥量作为解释变量X,将产量作为被解释变量。很明显以上两个变量是可以控制的。那么在固定解释变量下会存在如下的假设。解释变量是固定值

运筹规划(六)-网络流和图

接下来我们要介绍的算法都与图有关,那么我们就来先定义一下图。V表示网络中的节点,A表示网络中的弧。接下来咱们就来看下最小费用最大流问题。OOI最优炉OOI是位于威斯康星洲和亚拉巴马州的工厂制造家用烤面包炉。制成炉子会有火车运输到OOI位于孟菲斯和匹兹堡两个仓库之一,而后被分销到弗雷斯诺、皮奥利亚和纽瓦克的顾客站点。两个仓库也可以用公司的货车运用少量炉子。我们的任务是做新型的E27炉子下个月的一个分

因果推断(三)--内生性和因果关系

内生性会造成最小二乘法的系数估计有偏。这里我们需要了解几个问题。什么是内生性所谓偏差究竟是估计系数对谁的偏差内生性为什么会导致偏差从广义上讲如果给定的线性回归模型$Y=\alpha+\beta_{1}X_{1}+...+\beta_{k}X_{k}+e$,如果干扰项和解释变量是相关的,那么我们就可以说这个线性模型存在内生性的问题。第二个问题,在因果关系分析中,所谓的偏差是指希望求得的反应因果关系的
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×