马尔可夫决策过程(三)--值迭代算法

节咱们举例子讲到如何计算马尔可夫的值函数,本章节主要介绍一些常用的算法。值迭代算法对$i \in S$通过计算$$v^{n+1}(i)=max_{a \in A(i)}\{r(i,a)+\beta \sum_{j \in S} p(j|i,a)v^{n}(j)\}$$如果$$v^{n+1}(i)-v^{n}(i)<\frac{\sigma(1-\beta)}{2\beta}$$进入下一步,否

马尔可夫决策过程(二)--无限阶段折扣模型

决策者在整个决策阶段收到一系列的报酬折现以后累加起来就是具体的效用函数,我们称之为无限阶段的折扣模型。具体的表达如下$$V_{\beta}(i,\pi)=\sum_{0}^{\infty} \beta^{t} E_{\pi}^{i}[r(Y_{t}, \Delta_{t})]$$从上面的表达式折扣因子就是$\beta$, $\Delta_{t}$表示采用不同的动作,$Y_{t}$表示状态的变换。这

马尔可夫决策过程(一)--有限阶段模型

马尔可夫决策过程的经典五元组,我们再来看看。$${T, S, A(i), p(*|i,a), r(i,a)}$$这就是构成马尔可夫决策过程的环境,当你在业务问题找到这些变量的关系的,就能够使用马尔可夫决策构造一个经典的模型。本章节我们来讲解有限阶段模型。最优准则我们先来介绍报酬效用函数的定义

强化学习(十)--学习与规划

我们之前的讲解分为两部分,一个是直接从经验数据中学习值函数,一个是基于策略函数方法,直接从经验数据学习策略。而这节中主要介绍如何从经验数据直接学习模型,通过这个产生一系列模拟数据,在基于这些数据学习最优值函数或者最优策略。学习和规划是强化学习的两大类方法。学习针对的是环境模型未知的情况下,智能体通过

强化学习(九)--策略梯度

之前咱们的介绍解决的是当值状态接近于无限或者连续的时候采用DQN方法,下面我们来想另一个场景,如果我们的动作空间无限大或者连续呢,是不是基于值函数的迭代就不是那么适用啦,这就是本章要介绍的随机梯度策略。这个时候我考虑将策略参数化,利用线性函数或者非线性函数表示策略,就是$π_{\theta}(s)$

强化学习(七) -- 值函数逼近

现在我们可以回顾一下原来的知识,我们之前讲了那么多的算法,但是我们是不是都有一个假设,就是我们的状态空间都是有限的。然后我们使用内存存储每个状态的值函数,不断的进行更新这个值函数。如果是一个无限空间的场景我们将如何处理呢?这个时候已经没有足够的内存啦,我们往往需要使用近似的函数$V(s,\theta

强化学习(五)--学习策略(时序差分)

之前的学习中,我们了解到学习强化学习的数据是完整的采样轨迹(蒙特卡洛方法),使用动态规划需要采用自举的方法,使用后继的值函数估计当前的值函数,本章要介绍的实际上是这两种方法的结合,叫做时序差分。我们首先来回顾一下原来值函数的估计方程。

强化学习(四)--学习策略(蒙特卡洛)

咱们第三节介绍了基于模型的强化学习方法,动态规划计算值函数的公式。$$V_{π}(s)=\sum_{a\inA}π(a|s)(R_+\gamma\sum_{s'\inS}P_{ss'}V_{π}(s'))\tag{3.1}$$

强化学习(三) -- 策略迭代

动态规划动态规划相信大家都是了解的,这是一个运筹学的分支,其核心的思想是将一个大的问题分解成n个小问题,而要解决这个大问题,往往需要这些小问题的解,一般通过某些方式存储起来,从而节省大量时间。而马尔可夫就具有这样的特性,所有动态规划经常被用作解决强化学习问题的方法。策略评估我们在做强化学习的同时往往

强化学习(二) -- 最优策略(贝尔曼方程)

马尔可夫决策过程提供了基本的理论框架,几乎所有的马尔可夫学习问题都可以使用MDP的决策过程建模。而本节讲的贝尔曼方程是马尔可夫决策过程用到最基础的方程。贝尔曼方程方程也被成为动态规划方程,贝尔曼方程表达了当前值函数(或行为值函数)和它后继值函数的关系,以及值函数与行为函数之间的关系。而贝尔曼最优方程
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×