自然语言处理之标签提取

标签提取在评论挖掘中经常被使用到,如何快速的挖掘众多评论中一些关键词,包括积极地或者消极的。本文将要介绍标签提取一些常用方法,从而丰富我们的技术场景。在介绍新的方法之前,这类问题最朴素的想法应该是通过TF-ID算法对评论进行词频等特征的统计,获取那些重要度高的词语。接下来咱们来介绍两个解决这类问题的方法。TextRankTextRank是通过pagerank衍生出来的一类无监督算法,对于pager

机器学习之特征选择

特征选择也是机器学习一个比较大的话题,一个好的特征选择,可以简化模型,改善性能减少计算开销,改善通用性减低过拟合分享,接下来就来介绍一些特征选择的方法。过滤方法

深度强化学习(二)-- Dueling DQN深度强化学习

Dueling DQNDueling DQN(竞争强化网络)的思路是将原始的Q值,拆成两个部分,一部分是动作无关的值函数V,另一个是在这个状态下各个动作的优势函数a。下图让我们看下一个Dueling DQN和传统DQN网络的区别,这个也是唯一的区别。主要的区别是在末尾出的特征拆解,上路用于预测V,表示静态状态空间的本身具有的价值,一部分用于预测a,表示选择动作以后获得的额外价值。然后汇聚到一起预测

迁移学习(一)--迁移学习概述

本节讲解基于样本的迁移学习,这个时候你可能会有疑问,基于样本如何迁移呢?难到是直接把源数据直接做学习吗? 当然这种方法已经被证明效果方差较大,很难真正使用。其实基于样本的迁移学习主要要解决两个问题。如何筛选源域中的目标数据具有”相似分布”的有标签数据如何利用这个“相似”的数据进行学习通过上节的学习我们知道一个域分为两部分$D=\{X, P^{x}\}$, 其中X是特征空间,$P^{x}$表示边缘分

迁移学习(零)--迁移学习基础

迁移学习在很多场景获得越来越多的应用。例如在图像识别中,例如同一个实体在不同的光照条件写拍摄的照片,模型识别的性能会下降,从而需要我们从一个场景迁移到另一个场景的情况。例如在医疗领域,一些罕见病的天然样本就是短缺的,那么如果利用现有的数据学习到这些新的知识呢?这些都是迁移学习需要解决的问题。以下的场景也同样有迁移学习的身影出没。数据量小机器学习需要鲁棒性个性化定制问题用户隐私数据安全定义给定源域$

经典算法之回溯

今天来介绍经典算法中的回溯算法,这类算法是一种弱枚举(这里大家千万不要认为枚举很low,很多问题能够枚举出来还是万幸的)的算法,一般如果代码实现十分简单,但是真的思考出来还是有些难度的,因为一般使用递归实现,所以代码十分简洁,但是执行过程会让你十分痛苦,你即使在项目中打上断点追踪,最后很快就追丢了。所以本节咱们来列举几个经典问题,然后详细介绍一下这类问题的解决办法。组合给定两个整数 n 和 k,返

推荐搜索之指标体系

这章来介绍一下如何评估你搜索以后的结果好坏呢?从而定义算法优化的方向。对于比较粗糙的评估方法如下。$$P=\frac{检索出相关文档数}{检索所有文档数} \\R=\frac{检出相关文档数}{数据库中相关文档数}$$看着形式是不是很熟悉,就是经常看到的准确率和召回率。下面形式化的表达出来。a表示被检索出的与查询相关的 文献数量;b表示被检索出的与查询无关的文献数量;c表示与查询相 关,但是没有被

推荐搜索之排序学习

排序学习是搜索、推荐、广告的核心方法。排序结果的好坏很大 程度上影响到用户体验,甚至会影响到广告收益。常规的排序模型存 在一些问题,如调整参数困难,通过给定的一个测试集合来比较模型 是否过拟合很困难等。而机器学习解决了这些问题,因为其可以自动 调整参数。更重要的是,它可以通过规范化来避免数据过拟合。传统的检索模型靠人工来拟合排序公式,并通过不断地实验确定 最佳的参数组合,以此构成相关性打分函数。机

自然语言处理之命名实体识别

本文将介绍命名实体识别的一些方法,在自然语言中使用十分广泛。条件随机场(CRF)首先我们就介绍CRF的方式进行命名实体识别,CRF与HMM模型十分相似,如果不了解HMM模型的可以看自然语言处理之分词看我之前的一个讲分词的文章。

经典算法之动态规划

动态规划这东西呀,还是需要多多练习的。数字 n 代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。 当 n=3的时候,输出是这个样子的out=["((()))","(()())","(())()","()(())","()()(

量化交易(一)--选股模型

我们先来了解因子是什么呢?当我们选择一个股票的时候,能够帮助你决定的一个因素就是一个因子。这里举一个例子,真正影响一个股票的价格的因子是各种各样的,包括基本面,消息面以及政策因素甚至包括分析师预测和预期等等。那么对于国内的A股来说能够长期表现出色的因子有哪些呢?国模因子:小市值因子无论是A股还是港股,小市值因子一直存在,并且小市值因子逻辑十分简单易懂。市值越小,其操作涨幅说需要的资金越小,股票被操

量化交易(零)--量化交易基础

今天咱们就开始聊一个新的领域,在金融领域量化交易不在是一个新鲜名词,今天有时间我们就来看看量化交易股市这些比较敏感的词汇。回测这个其实很好理解,就是加入你有一个买入卖出的策略,那怎么感知到你的策略的有效性呢? 在做私募的领域经常要给别人看你的曲线,所谓的曲线就是你的收益曲线,你能在高点套现在低点买入吗? 这就是金融行业的灵魂拷问。而所谓的回测就是说你的策略既定的情况下。给你既定的时间,你的收益周期
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×