机器学习之决策树

决策树算法是一个比较简单的树模型算法,使用熵的概念构建一颗可以做决策的树,比较有意思决策树是一个贪心算法,在特征空间内进行递归的二分分割。决策树由节点和边组成,内部节点是一个特征,叶子节点表示一个分类。实际上决策树表示的是在给定特征空间中,类别的一个条件概率。决策树的3个步骤1.特征选择2.决策树生

无监督学习之聚类评估

聚类评估指标聚类算法往往被大家使用的时候会忽略评估标准,这篇文章主要介绍聚类算法的评估方法。聚类有效性指标就是用于衡量聚类的效果的指标。聚类指标分为以下两类:外部指标:主要是使用的聚类模型和其他聚类模型的对比内部指标:单纯衡量使用模型的好坏。外部指标给定数据集合$D={\vec{x_1,....,x

机器学习之ADMM算法

交替方向乘子法本文是继拉格朗日乘子以后有一个讲优化算法,建议先读完拉格朗日乘子然后阅读本文效果更佳。首先我们来考虑以下什么是优化问题,它的数学表达是怎么样的,如果阅读了上面这个博客,你能很好的回答的这个问题,最简单的表达实际上就是。$$min_x=f(x)$$其中$x$是优化变量,也就是可以改变的数值,通过调节$x$的大小,使得目标函数$f(x)$的数值达到最小。实际上对于上面的表达式,$min_

机器学习之集成学习

集成学习在数据疯狂增长的今天,单个学习器似乎不能满足我们对于数据挖掘的要求,这个时候我们需要讲多个学习器集成使用,从而提高整个学习器的泛华能力。目前的集成学习方法大致可分为两大类?即个体学习器问存在强依赖关系、必须串行生成的序列化方法?以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的

样本不均之样本采样

采样什么是类不平衡问题类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。在后文中,把样本数量过少的类别称为“少数类”。但实际上,数据集上的类不平衡到底有没有达到需要特殊处理的程度,还要看不处理时训练出来的模型

机器学习之贝叶斯算法

贝叶斯分类器贝叶斯分类器的特点属性可以离散可以连续数学基础扎实,分类效率稳定对缺失值和噪声不敏感属性如果不相关(独立),效果很好,如果相关效果不低于决策树。原理设样本$\vec{x}=x_1,x_2...x_n$, 标记$y \in Y=\{ c_1, c_2,...,c_k\}$,P(X, Y)是X,Y的组合概率分布。训练集合$T=\{(\vec{x_1},y_1),(\vec{x_2,y_2)

PageRank 算法

Google的两位创始人都是斯坦福大学的博士生,他们提出的PageRank算法受到了论文影响力因子的评价启发。当一篇论文被引用的次数越多,证明这篇论文的影响力越大。正是这个想法解决了当时网页检索质量不高的问题。PageRank的计算过程最初pagerank算法是解决搜索引擎中的页面权重问题的,简而言
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×