深度强化学习(三)-- 平均值DQN

平均值DQN是基于传统的DQN的一个简单但是非常有效的一个改进,它基于对先前学习过程中的Q值估计进行平均,通过减少目标价值函数中的近似误差方差,使得训练过程更加稳定,并提高性能。至于网络结构上是完全一致的。算法分析平均值DQN主要关注传统DQN学习过程中存在的误差,并想办法减少这些误差。Q(s,a;θi)Q(s,a;\theta_{i})Q(s,a;θi​)表示第i次迭代的值函数,Δi=Q(s,a

战略思维之四种思维方式

今天来看看战略思维的东西,工作的时候我们经常被困到一个事情的细节中,缺乏宏观的思考,当然这也是缺乏战略思维的表现,经常会限制个人的发展,永远以细节思考,永远不会在更宏观的视角看待事情,也永远不能上帝视角思考问题,也找不到正确的路径。接下来就来了解一下战略思维的四种思维方式。

因果推断(∞)--因果推断框架总结

之前写了那么多因果推断的博客,这篇博客做一个大的总结。以前写了好多散点的知识,这篇文章就要将这些散点的知识进行一次汇总。宏观上看因果框架分为两个部分,一个是结构因果框架,一个是潜因果框架。本文主要讲解潜因果框架的内容。之前介绍了很多散点的知识,这一节中会逐渐找到这些知识的归属地。结构因果框架结构因果框架主要包含因果图和结构方程的内容。之前介绍了很多相关的内容,这里就不会一一介绍了。结构因果框架中的

自然语言处理之Transformer精讲(一)

本节要详细介绍一些Transformer这个常用的神经网络组件,会举一些十分详细的例子,目的是将这个网络结构讲清楚。TransformerTransformer结构是主要是编码器和解码器组成,Transformer逐渐其实是并且了经典的LSTM循环的机构,使用了一种自注意力的机制。这些我们举一个机器翻译的例子,来讲解整个过程。编码器编码器的主要作用是从输入的语句中尽可能多的提取特征,其结构如图2-

歪解“道法术器势魂谋”

道法术器势魂谋一直在脑子里,但是一直也没有个时间想想这其中的道理,闲来无事想到哪里写在哪里吧。道道德经中的"道"代表了一种理想状态或目标,它强调追求和谐、平衡、自然的境界。它是一种普遍性的原则,超越个体和具体规则,是人们可以追求的终极目标。

运筹规划(七)-求解器

这篇文章主要介绍当我们面对一个运筹问题的时候,如何求解一个问题。先来介绍一个基于python的集成框架pyomo,通过pyomo下面可以调用一系列的求解器,最终实现求解的过程。先给一个demofrom pyomo.environ import *# 创建一个模型model = ConcreteModel()# 定义变量model.x = Var(within=Reals)model.y = Var

无监督学习之聚类算法

今天这章主要介绍一些聚类算法。

神经网络之归一化进阶

BN(Batch Normalization)BN是深度学习中缓解过拟合的一个非常常见的手段,不仅能有效的解决梯度爆炸的问题,而且加入了BN的网络往往是更加稳定的还具有一定的正则化的作用。梯度饱和问题日常工作中我们经常使用的sigmod激活函数或者tanh激活函数存在饱和的区域,其原因是激活函数输入值过大或者过小,导致的激活函数的梯度接近于0,使得网络收敛过慢。传统的方法是使用Relu激活函数。B

神经网络之Dropout

本文主要介绍两类常以网络层形式添加模型结构中,一类是Dropout,一类是归一化。DropoutDropout是当发生过拟合以后,第一个考虑使用的网络结果。在训练、

图像算法--骨架网络(三)

iGPT最近ChatGPT突然间火了起来,其实图像领域也有类似的模型,叫做iGPT。不仅在图像识别还有在图像补全上都起到很好地作用。

图像算法--骨架网络(二)

本节继续来介绍新的网络结构SENet网络SENet的提出动机十分简单。传统的方法将网络的特征图的值直接传递到下一层,而SENet的核心是建模通道之间的依赖关系,通过网络的全局损失函数自适应的重新校正通道之间的特征的相应的强度。SENet是由一系列的SE块组成,一个SE块包括压缩和激发两个步骤,其中压缩是通过特征图上执行全局平均池化得到当前特征图的全局压缩特征向量,特征图通过两层全连接得到特征图中每
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×