异常检测算法之孤立森林(isolation forest)

异常检测是一个比较经典的方向,这类算法目的是识别出系统的异常数据点,其细分还有一些子方向,变点监测用于识别序列中的突变点,异常序列监测,这类算法经常在轨迹中使用比较广泛,如何快速发现轨迹中的飘逸轨迹点序列。本文介绍的一个比较经典用于找到数据中的孤立点的算法,你可以直接用来识别训练数据中的孤立点和噪声点,也可以使用这个算法作为前置算法帮助过滤数据。废话不多说,现在就马上介绍一些这个算法。下面咱们单独

推荐搜索之计算广告

本章咱们来说说计算广告这一领域,其实从本质上讲呢,计算广告并不属于推荐搜索的领域,是可以单独拉出来当一个领域来研究,但是本身计算广告是更多的是通过推荐、搜索、点击等记录挖掘出来,索性咱们先放到一起了解一下。计算广告是做什么的呢? 提到广告其实就在一个合适的时间、合适的地点给合适的人推荐某些产品。如果用户下单,平台将获得一定的报酬,之前百度通过广告点击赚取了大量的收益,目前也是财报中最大的一部分收益

自然语言处理之标签提取

标签提取在评论挖掘中经常被使用到,如何快速的挖掘众多评论中一些关键词,包括积极地或者消极的。本文将要介绍标签提取一些常用方法,从而丰富我们的技术场景。在介绍新的方法之前,这类问题最朴素的想法应该是通过TF-ID算法对评论进行词频等特征的统计,获取那些重要度高的词语。接下来咱们来介绍两个解决这类问题的方法。TextRankTextRank是通过pagerank衍生出来的一类无监督算法,对于pager

机器学习之特征选择

特征选择也是机器学习一个比较大的话题,一个好的特征选择,可以简化模型,改善性能减少计算开销,改善通用性减低过拟合分享,接下来就来介绍一些特征选择的方法。过滤方法

深度强化学习(二)-- Dueling DQN深度强化学习

Dueling DQNDueling DQN(竞争强化网络)的思路是将原始的Q值,拆成两个部分,一部分是动作无关的值函数V,另一个是在这个状态下各个动作的优势函数a。下图让我们看下一个Dueling DQN和传统DQN网络的区别,这个也是唯一的区别。主要的区别是在末尾出的特征拆解,上路用于预测V,表示静态状态空间的本身具有的价值,一部分用于预测a,表示选择动作以后获得的额外价值。然后汇聚到一起预测

迁移学习(一)--迁移学习概述

本节讲解基于样本的迁移学习,这个时候你可能会有疑问,基于样本如何迁移呢?难到是直接把源数据直接做学习吗? 当然这种方法已经被证明效果方差较大,很难真正使用。其实基于样本的迁移学习主要要解决两个问题。如何筛选源域中的目标数据具有”相似分布”的有标签数据如何利用这个“相似”的数据进行学习通过上节的学习我们知道一个域分为两部分$D=\{X, P^{x}\}$, 其中X是特征空间,$P^{x}$表示边缘分

迁移学习(零)--迁移学习基础

迁移学习在很多场景获得越来越多的应用。例如在图像识别中,例如同一个实体在不同的光照条件写拍摄的照片,模型识别的性能会下降,从而需要我们从一个场景迁移到另一个场景的情况。例如在医疗领域,一些罕见病的天然样本就是短缺的,那么如果利用现有的数据学习到这些新的知识呢?这些都是迁移学习需要解决的问题。以下的场景也同样有迁移学习的身影出没。数据量小机器学习需要鲁棒性个性化定制问题用户隐私数据安全定义给定源域$

经典算法之回溯

今天来介绍经典算法中的回溯算法,这类算法是一种弱枚举(这里大家千万不要认为枚举很low,很多问题能够枚举出来还是万幸的)的算法,一般如果代码实现十分简单,但是真的思考出来还是有些难度的,因为一般使用递归实现,所以代码十分简洁,但是执行过程会让你十分痛苦,你即使在项目中打上断点追踪,最后很快就追丢了。所以本节咱们来列举几个经典问题,然后详细介绍一下这类问题的解决办法。组合给定两个整数 n 和 k,返

推荐搜索之指标体系

这章来介绍一下如何评估你搜索以后的结果好坏呢?从而定义算法优化的方向。对于比较粗糙的评估方法如下。$$P=\frac{检索出相关文档数}{检索所有文档数} \\R=\frac{检出相关文档数}{数据库中相关文档数}$$看着形式是不是很熟悉,就是经常看到的准确率和召回率。下面形式化的表达出来。a表示被检索出的与查询相关的 文献数量;b表示被检索出的与查询无关的文献数量;c表示与查询相 关,但是没有被

推荐搜索之排序学习

排序学习是搜索、推荐、广告的核心方法。排序结果的好坏很大 程度上影响到用户体验,甚至会影响到广告收益。常规的排序模型存 在一些问题,如调整参数困难,通过给定的一个测试集合来比较模型 是否过拟合很困难等。而机器学习解决了这些问题,因为其可以自动 调整参数。更重要的是,它可以通过规范化来避免数据过拟合。传统的检索模型靠人工来拟合排序公式,并通过不断地实验确定 最佳的参数组合,以此构成相关性打分函数。机

自然语言处理之命名实体识别

本文将介绍命名实体识别的一些方法,在自然语言中使用十分广泛。条件随机场(CRF)首先我们就介绍CRF的方式进行命名实体识别,CRF与HMM模型十分相似,如果不了解HMM模型的可以看自然语言处理之分词看我之前的一个讲分词的文章。

经典算法之动态规划

动态规划这东西呀,还是需要多多练习的。数字 n 代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。 当 n=3的时候,输出是这个样子的out=["((()))","(()())","(())()","()(())","()()(
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×