强化学习(六) -- 资格迹

我们之前讲过的蒙特卡洛方法和时序差分算法有一点不同点,当更新当前状态的值函数的时候,蒙特卡洛方法是使用整个轨迹来预估,而TD算法则是使用一段轨迹来预估,而这个一段轨迹一般是小于整条轨迹的。而通过利用不同的举例来估计,我就称为多步时序差分法也叫做资格迹法。而资格迹法一般又分为两个角度来计算。一种前项视

运筹规划(一)-运筹规划基础

经过之前的入门,我们来系统的看看运筹规划这门数学科学。通过我们之前举的例子,我们知道是根据业务问题,列出符合业务需求的方程,然后求解这个方程,然后接下来要介绍的实际上是我们要解决一个问题的时候,往往将现有的问题变化成标准型。然后求解。下面我们就来看看如何转换标准型。

强化学习(五)--学习策略(时序差分)

之前的学习中,我们了解到学习强化学习的数据是完整的采样轨迹(蒙特卡洛方法),使用动态规划需要采用自举的方法,使用后继的值函数估计当前的值函数,本章要介绍的实际上是这两种方法的结合,叫做时序差分。我们首先来回顾一下原来值函数的估计方程。

强化学习(四)--学习策略(蒙特卡洛)

咱们第三节介绍了基于模型的强化学习方法,动态规划计算值函数的公式。$$V_{π}(s)=\sum_{a\inA}π(a|s)(R_+\gamma\sum_{s'\inS}P_{ss'}V_{π}(s'))\tag{3.1}$$

强化学习(三) -- 策略迭代

动态规划动态规划相信大家都是了解的,这是一个运筹学的分支,其核心的思想是将一个大的问题分解成n个小问题,而要解决这个大问题,往往需要这些小问题的解,一般通过某些方式存储起来,从而节省大量时间。而马尔可夫就具有这样的特性,所有动态规划经常被用作解决强化学习问题的方法。策略评估我们在做强化学习的同时往往

强化学习(二) -- 最优策略(贝尔曼方程)

马尔可夫决策过程提供了基本的理论框架,几乎所有的马尔可夫学习问题都可以使用MDP的决策过程建模。而本节讲的贝尔曼方程是马尔可夫决策过程用到最基础的方程。贝尔曼方程方程也被成为动态规划方程,贝尔曼方程表达了当前值函数(或行为值函数)和它后继值函数的关系,以及值函数与行为函数之间的关系。而贝尔曼最优方程

强化学习(一) -- 马尔可夫过程

强化学习简介首先我们来说下深度学习或者机器学习这个范畴,众所周知,深度学习此类学习方式是典型的端到端的学习方式,什么是端到端呢?就是我直接给你结果,你根据输入来告诉学习中间的过程,而中间的过程一般就是矩阵参数。对比而言呢,强化学习其实一个序列决策,一听到这里第一个不同就是我们是在一个序列过程中做决策

轨迹挖掘(四)--基于geohash的临近搜索

引言在地理信息中,我们经常要做一个范围搜索,这个往往也是性能的瓶颈,今天我们就来介绍基于geohash的临近搜索。geohash首先我们来介绍什么是geohash,geohash简单来说是一种地理编码,就是你给我输入一个经纬度,我给你一个字符串编码。我们可以简单思考一下,如果让你做范围搜索,你怎么来

轨迹挖掘(零)--基于HMM的地图匹配算法(map match)

背景地图匹配算法,在地图领域还是十分重要的算法,那么我们先来普及一下地图匹配算法究竟是做一个什么样的事情呢?看上面这个图,我们看到三个黑的gps点,和地图一些路网,那么mapmatch解决的就是这三个点究竟在哪条路上?至于为什么我们要知道这三个点在哪条路上呢?我们可以这样理解一种业务场景,在轨迹挖掘

linux下升级python版本

大家可能都会遇到这样的问题,python版本升级的问题,这个问题也是比较头疼,对于我这种深度强迫症患者,在不知情的情况下安装了n多版本,也不知道怎么清理,简直让人不能容忍。下面我们来介绍如何升级你服务器上的python呢?下载相应版本的pythonwgethttps://www.python.org

自然语言处理之word2vec

Word2vec将文本转化成向量是nlp中一个比较重要的任务,也是链接nlp和机器学习和深度学习的桥梁,单纯的中文文字,我们是无法直接放到模型中训练的,所以将文本转化为一个向量是我们必须要过的一关。词袋模型(bagofword)词袋模型的思路十分简单,是文本向量化的最简单方法。我们直接举一个例子来了

自然语言处理之Seq2Seq模型

Seq2Seq模型对于一些自然语言处理任务,比如聊天机器人,机器翻译,自动文摘等,传统的方法都是从候选集中选出答案,这对素材的完善程度要求很高,随着最近几年深度学习的兴起,国外学者将深度学习技术应用与自然语言的生成和自然语言的理解的方面的研究,并取得了一些突破性的成果,比如,Sequence-to-
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×