xgboost(二)之Gradient Boosting

由前述内容可知,XGBoost是由多棵决策树(即CART回归树)构成的,那么多棵决策树是如何协作的呢?此时便用到了Boosting技术。Boosting的基本思想是将多个弱学习器通过一定的方法整合为一个强学习器。在分类问题中,虽然每个弱分类器对全局的预测准确率不高,但可能对数据某一方面的预测准确率非常高,将很多局部预测准确率非常高的弱分类器进行组合,即可达到全局预测准确率高的强分类器的效果。Ada

xgboost(一)之cart树

最近因为工作原因,需要重新回顾xgboost,原来我个人也仅仅限制于使用,没有过多总结,借着这次机会,正好回顾一下这款神器。提到xgboost就必须要提一下cart树,这个是xgboost的基本组成单元。cart树之前微博中提到决策树,可能包括ID3和cs4.5这些算法,其实cart树和这些算法没有什么本质的区别,都是找到一些分割点,然后构建决策树,这里我们主要介绍一下cart的细节,其实这个也是

自然语言处理之表示学习

什么是表示学习呢?说白了就是特征,机器学习算法的性能严重依赖特征。如果存在一种可以从数据中的到和判别特征的方法们就会减少机器学习对特征工程的依赖,这就是表示学习。离散表示这里虽然咱们单独拿出来讨论,但是其实特征的离散表示十分简单,就是独热编码,但是独热编码的缺点也是十分明显的。在向量空间中,所有的对

强化学习(十)--学习与规划

我们之前的讲解分为两部分,一个是直接从经验数据中学习值函数,一个是基于策略函数方法,直接从经验数据学习策略。而这节中主要介绍如何从经验数据直接学习模型,通过这个产生一系列模拟数据,在基于这些数据学习最优值函数或者最优策略。学习和规划是强化学习的两大类方法。学习针对的是环境模型未知的情况下,智能体通过

强化学习(九)--策略梯度

之前咱们的介绍解决的是当值状态接近于无限或者连续的时候采用DQN方法,下面我们来想另一个场景,如果我们的动作空间无限大或者连续呢,是不是基于值函数的迭代就不是那么适用啦,这就是本章要介绍的随机梯度策略。这个时候我考虑将策略参数化,利用线性函数或者非线性函数表示策略,就是$π_{\theta}(s)$

强化学习(八)-- 深度强化学习

之前我们的章节中介绍的是值函数可以表示为奇函数和参数线性组合的方式逼近,但是这类函数的拟合能力是有限的,对于值函数为非线性的情况下拟合能力就不足了。本章要讲解的就是在非线性环境下如何做到值函数逼近。当时我们拟合非线性的值函数,肯定是考虑深度学习的方法,这也就是为什么会有深度强化学习一说啦。DQNDQ

强化学习(七) -- 值函数逼近

现在我们可以回顾一下原来的知识,我们之前讲了那么多的算法,但是我们是不是都有一个假设,就是我们的状态空间都是有限的。然后我们使用内存存储每个状态的值函数,不断的进行更新这个值函数。如果是一个无限空间的场景我们将如何处理呢?这个时候已经没有足够的内存啦,我们往往需要使用近似的函数$V(s,\theta

强化学习(六) -- 资格迹

我们之前讲过的蒙特卡洛方法和时序差分算法有一点不同点,当更新当前状态的值函数的时候,蒙特卡洛方法是使用整个轨迹来预估,而TD算法则是使用一段轨迹来预估,而这个一段轨迹一般是小于整条轨迹的。而通过利用不同的举例来估计,我就称为多步时序差分法也叫做资格迹法。而资格迹法一般又分为两个角度来计算。一种前项视

运筹规划(一)-运筹规划基础

经过之前的入门,我们来系统的看看运筹规划这门数学科学。通过我们之前举的例子,我们知道是根据业务问题,列出符合业务需求的方程,然后求解这个方程,然后接下来要介绍的实际上是我们要解决一个问题的时候,往往将现有的问题变化成标准型。然后求解。下面我们就来看看如何转换标准型。

强化学习(五)--学习策略(时序差分)

之前的学习中,我们了解到学习强化学习的数据是完整的采样轨迹(蒙特卡洛方法),使用动态规划需要采用自举的方法,使用后继的值函数估计当前的值函数,本章要介绍的实际上是这两种方法的结合,叫做时序差分。我们首先来回顾一下原来值函数的估计方程。

强化学习(四)--学习策略(蒙特卡洛)

咱们第三节介绍了基于模型的强化学习方法,动态规划计算值函数的公式。$$V_{π}(s)=\sum_{a\inA}π(a|s)(R_+\gamma\sum_{s'\inS}P_{ss'}V_{π}(s'))\tag{3.1}$$

强化学习(三) -- 策略迭代

动态规划动态规划相信大家都是了解的,这是一个运筹学的分支,其核心的思想是将一个大的问题分解成n个小问题,而要解决这个大问题,往往需要这些小问题的解,一般通过某些方式存储起来,从而节省大量时间。而马尔可夫就具有这样的特性,所有动态规划经常被用作解决强化学习问题的方法。策略评估我们在做强化学习的同时往往
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×