机器学习之特征工程

预处理预处理是机器学习一个基础问题,但是没有时间将预处理的方式进行整理,这次就将预处理的方式进行部分整理。归一化对于数值类型的特征可以进行归一化操作,而归一化意味着将现有数据整理到某一个范围内。线性函数归一化目标是将所有的数据归一化到[0,1]之间。$$X = \frac{X-X_i}{X_m-X_i}$$$X_m$代表X序列最大值,$X_i$代表X序列的最小值。零均值归一化目的是将原始数据归一化

机器学习之模型评估

模型的评估错误率错误率指的的是分类错误的样本数占总样本的比例精度精度指的是分类正确的样本数占总样本的比例。查准率和查全率错误率和精度虽然常用,但是对于某些问题来说并不能完全的评估一个模型好坏。下面来看一个混淆矩阵然后来说明我们我概念。查准率的定义为:$$P=\frac{TP}{TP+FP}$$查全率

机器学习之决策树

决策树算法是一个比较简单的树模型算法,使用熵的概念构建一颗可以做决策的树,比较有意思决策树是一个贪心算法,在特征空间内进行递归的二分分割。决策树由节点和边组成,内部节点是一个特征,叶子节点表示一个分类。实际上决策树表示的是在给定特征空间中,类别的一个条件概率。决策树的3个步骤1.特征选择2.决策树生

无监督学习之聚类评估

聚类评估指标聚类算法往往被大家使用的时候会忽略评估标准,这篇文章主要介绍聚类算法的评估方法。聚类有效性指标就是用于衡量聚类的效果的指标。聚类指标分为以下两类:外部指标:主要是使用的聚类模型和其他聚类模型的对比内部指标:单纯衡量使用模型的好坏。外部指标给定数据集合$D={\vec{x_1,....,x

机器学习之ADMM算法

交替方向乘子法本文是继拉格朗日乘子以后有一个讲优化算法,建议先读完拉格朗日乘子然后阅读本文效果更佳。首先我们来考虑以下什么是优化问题,它的数学表达是怎么样的,如果阅读了上面这个博客,你能很好的回答的这个问题,最简单的表达实际上就是。$$min_x=f(x)$$其中$x$是优化变量,也就是可以改变的数值,通过调节$x$的大小,使得目标函数$f(x)$的数值达到最小。实际上对于上面的表达式,$min_

机器学习之集成学习

集成学习在数据疯狂增长的今天,单个学习器似乎不能满足我们对于数据挖掘的要求,这个时候我们需要讲多个学习器集成使用,从而提高整个学习器的泛华能力。目前的集成学习方法大致可分为两大类?即个体学习器问存在强依赖关系、必须串行生成的序列化方法?以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的

样本不均之样本采样

采样什么是类不平衡问题类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。在后文中,把样本数量过少的类别称为“少数类”。但实际上,数据集上的类不平衡到底有没有达到需要特殊处理的程度,还要看不处理时训练出来的模型

机器学习之贝叶斯算法

贝叶斯分类器贝叶斯分类器的特点属性可以离散可以连续数学基础扎实,分类效率稳定对缺失值和噪声不敏感属性如果不相关(独立),效果很好,如果相关效果不低于决策树。原理设样本$\vec{x}=x_1,x_2...x_n$, 标记$y \in Y=\{ c_1, c_2,...,c_k\}$,P(X, Y)是X,Y的组合概率分布。训练集合$T=\{(\vec{x_1},y_1),(\vec{x_2,y_2)

postgres基本应用

postgres 数据库为已有的字段添加默认值ALTER TABLE table_name ALTER COLUMN column_name SET DEFAULT default_value;删除默认值ALTER TABLE table_name ALTER COLUMN column_name DROP DEFAULT;给postgre添加自增字段方法一:CREATE TABLE custom

数据可视化

数据可视化也是数据挖掘的一部分工作,常见于挖掘前的分析和挖掘后的装X,哈哈,开玩笑,总之数据可视化是数据挖掘中的十分重要的一部分。接下来的几个分享就是针对数据可视化的内容来讲的,希望大家能够很好的使用现有的工具构建出更好、更美的模型。常见的可视化图形条形图和饼图这应该是最古老的可视化方法啦,而且饼图适用于一个整体中不同部分的比较。条形图能够比较不同组的差异来来展示模式。当数值型数据被很好的划分为不

图神经网络(七)--GAE神经网络

如果想了解GAE其实从VAE了解比较好,下面我就先来讲讲VAE自编码器。VAEVAE(VariationalAuto-encoder)图自编码器,是一种和GAN类似的神经网络。那么VAE有什么作用?它主要的解决问题的场景是,你给我一个向量,我给你一张图片,例如我想生成一个猫的图片,你的输入可以是描述

神经网络之BP算法

多层感知机​首先我们来介绍多层感知机,其实根据字面的意思我们已经能够了解大半,就是将一个简单的感知机进行连接,其中层数可以任意挑选,中的维度都可以任意挑选。它的样式是这样的。结构比较简单,输入层进来以后就和隐藏层进行权重转换,直到输出层。它的激活函数不是我们在我们的系统上搜索[感知机]的文章中提到的
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×