机器学习之决策树

决策树算法是一个比较简单的树模型算法,使用熵的概念构建一颗可以做决策的树,比较有意思决策树是一个贪心算法,在特征空间内进行递归的二分分割。决策树由节点和边组成,内部节点是一个特征,叶子节点表示一个分类。实际上决策树表示的是在给定特征空间中,类别的一个条件概率。决策树的3个步骤1.特征选择2.决策树生

无监督学习之聚类评估

聚类评估指标聚类算法往往被大家使用的时候会忽略评估标准,这篇文章主要介绍聚类算法的评估方法。聚类有效性指标就是用于衡量聚类的效果的指标。聚类指标分为以下两类:外部指标:主要是使用的聚类模型和其他聚类模型的对比内部指标:单纯衡量使用模型的好坏。外部指标给定数据集合$D={\vec{x_1,....,x

机器学习之ADMM算法

交替方向乘子法本文是继拉格朗日乘子以后有一个讲优化算法,建议先读完拉格朗日乘子然后阅读本文效果更佳。首先我们来考虑以下什么是优化问题,它的数学表达是怎么样的,如果阅读了上面这个博客,你能很好的回答的这个问题,最简单的表达实际上就是。$$min_x=f(x)$$其中$x$是优化变量,也就是可以改变的数值,通过调节$x$的大小,使得目标函数$f(x)$的数值达到最小。实际上对于上面的表达式,$min_

机器学习之集成学习

集成学习在数据疯狂增长的今天,单个学习器似乎不能满足我们对于数据挖掘的要求,这个时候我们需要讲多个学习器集成使用,从而提高整个学习器的泛华能力。目前的集成学习方法大致可分为两大类?即个体学习器问存在强依赖关系、必须串行生成的序列化方法?以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的

样本不均之样本采样

采样什么是类不平衡问题类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。在后文中,把样本数量过少的类别称为“少数类”。但实际上,数据集上的类不平衡到底有没有达到需要特殊处理的程度,还要看不处理时训练出来的模型

机器学习之贝叶斯算法

贝叶斯分类器贝叶斯分类器的特点属性可以离散可以连续数学基础扎实,分类效率稳定对缺失值和噪声不敏感属性如果不相关(独立),效果很好,如果相关效果不低于决策树。原理设样本$\vec{x}=x_1,x_2...x_n$, 标记$y \in Y=\{ c_1, c_2,...,c_k\}$,P(X, Y)是X,Y的组合概率分布。训练集合$T=\{(\vec{x_1},y_1),(\vec{x_2,y_2)

postgres基本应用

postgres 数据库为已有的字段添加默认值ALTER TABLE table_name ALTER COLUMN column_name SET DEFAULT default_value;删除默认值ALTER TABLE table_name ALTER COLUMN column_name DROP DEFAULT;给postgre添加自增字段方法一:CREATE TABLE custom

数据可视化

数据可视化也是数据挖掘的一部分工作,常见于挖掘前的分析和挖掘后的装X,哈哈,开玩笑,总之数据可视化是数据挖掘中的十分重要的一部分。接下来的几个分享就是针对数据可视化的内容来讲的,希望大家能够很好的使用现有的工具构建出更好、更美的模型。常见的可视化图形条形图和饼图这应该是最古老的可视化方法啦,而且饼图适用于一个整体中不同部分的比较。条形图能够比较不同组的差异来来展示模式。当数值型数据被很好的划分为不

图神经网络(七)--GAE神经网络

如果想了解GAE其实从VAE了解比较好,下面我就先来讲讲VAE自编码器。VAEVAE(VariationalAuto-encoder)图自编码器,是一种和GAN类似的神经网络。那么VAE有什么作用?它主要的解决问题的场景是,你给我一个向量,我给你一张图片,例如我想生成一个猫的图片,你的输入可以是描述

神经网络之BP算法

多层感知机​首先我们来介绍多层感知机,其实根据字面的意思我们已经能够了解大半,就是将一个简单的感知机进行连接,其中层数可以任意挑选,中的维度都可以任意挑选。它的样式是这样的。结构比较简单,输入层进来以后就和隐藏层进行权重转换,直到输出层。它的激活函数不是我们在我们的系统上搜索[感知机]的文章中提到的

神经网络之最优化方法

最优化方法优化方法是深度学习中一个比较重要的话题,其实他的知识来自于最优化理论,如果想详细关注这个话题建议读一下最优化理论这本书,注意本书仅供参考,请误商业使用。本文将介绍常用的最优化方法,梯度下降法,牛顿法,拟牛顿法和共轭梯度法。梯度下降法梯度下降法是我们接触最多的方法,在目标函数是凸函数的时候我们能得到全局最优解。对于一个函数$f(x)$,它的梯度$f'(x)$是$f(x)$的梯度,对于足够小

神经网络之循环神经网络

LSTM神经网络RNN的结构开始为了我们能够对比出两种网络的异同,我们还是给出一个泛化的简图。可以清楚看到整个网络虽然叠加多个神经元,但是每个神经元的处理逻辑单一,很容易将信息丢失。LSTM这个时候我们来进入LSTM的认识。LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互。上面的图并不陌生,很多博客都能见得到,十分权威的一
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×