机器学习之支持向量积

支持向量机支持向量机,千呼万唤始出来,SVM作为远古时期最接近深度学习的算法,理论想起来比较简单,但是想要理解深刻还是需要花些周章的,这里会尽我所能给出一个比较好解释的方式。SVM应该是第一个解决线性不可分的算法,假如我没有孤陋寡闻的话,这里会介绍基本的SVM原理,高维度经过核函数转换的会提到,但是

机器学习之正则化

正则化正则化是结构风险最小化策略的实现,模型越复杂,正则化项越大(参数越多),所以正则化项可以采用参数向量的范数。正则化的目的是选择经验风险和复杂度同时最小的一个模型。正则化选择我们经常使用L1范数或是L2范数进行作为正则化项,甚至你还知道引入这种范数能够减低过拟合的问题,但是引入了正则化项就能防止过拟合呢?先看看这些范数都是怎么定义的。ω 是属性权重L0范数: ω 的非0元素的个数。L1范数:

机器学习之线性回归

线性回归线性回归被认为是很多机器学习书籍的入门模型,其实这个模型的地位并不轻,毕竟线性回归包含几乎所有机器学习方法的流程,所谓麻雀虽小,五脏俱全。下面我们就线性回归模型的一些知识。##理论数据形式对于线性回归我们面对的原始数据就是每一个维度的特征。原始数据:$$\vec{x}=(x{(1)})...

机器学习之特征工程

预处理预处理是机器学习一个基础问题,但是没有时间将预处理的方式进行整理,这次就将预处理的方式进行部分整理。归一化对于数值类型的特征可以进行归一化操作,而归一化意味着将现有数据整理到某一个范围内。线性函数归一化目标是将所有的数据归一化到[0,1]之间。$$X = \frac{X-X_i}{X_m-X_i}$$$X_m$代表X序列最大值,$X_i$代表X序列的最小值。零均值归一化目的是将原始数据归一化

机器学习之模型评估

模型的评估错误率错误率指的的是分类错误的样本数占总样本的比例精度精度指的是分类正确的样本数占总样本的比例。查准率和查全率错误率和精度虽然常用,但是对于某些问题来说并不能完全的评估一个模型好坏。下面来看一个混淆矩阵然后来说明我们我概念。查准率的定义为:$$P=\frac{TP}{TP+FP}$$查全率

机器学习之决策树

决策树算法是一个比较简单的树模型算法,使用熵的概念构建一颗可以做决策的树,比较有意思决策树是一个贪心算法,在特征空间内进行递归的二分分割。决策树由节点和边组成,内部节点是一个特征,叶子节点表示一个分类。实际上决策树表示的是在给定特征空间中,类别的一个条件概率。决策树的3个步骤1.特征选择2.决策树生

无监督学习之聚类评估

聚类评估指标聚类算法往往被大家使用的时候会忽略评估标准,这篇文章主要介绍聚类算法的评估方法。聚类有效性指标就是用于衡量聚类的效果的指标。聚类指标分为以下两类:外部指标:主要是使用的聚类模型和其他聚类模型的对比内部指标:单纯衡量使用模型的好坏。外部指标给定数据集合$D={\vec{x_1,....,x

机器学习之ADMM算法

交替方向乘子法本文是继拉格朗日乘子以后有一个讲优化算法,建议先读完拉格朗日乘子然后阅读本文效果更佳。首先我们来考虑以下什么是优化问题,它的数学表达是怎么样的,如果阅读了上面这个博客,你能很好的回答的这个问题,最简单的表达实际上就是。$$min_x=f(x)$$其中$x$是优化变量,也就是可以改变的数值,通过调节$x$的大小,使得目标函数$f(x)$的数值达到最小。实际上对于上面的表达式,$min_

机器学习之集成学习

集成学习在数据疯狂增长的今天,单个学习器似乎不能满足我们对于数据挖掘的要求,这个时候我们需要讲多个学习器集成使用,从而提高整个学习器的泛华能力。目前的集成学习方法大致可分为两大类?即个体学习器问存在强依赖关系、必须串行生成的序列化方法?以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的

样本不均之样本采样

采样什么是类不平衡问题类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。在后文中,把样本数量过少的类别称为“少数类”。但实际上,数据集上的类不平衡到底有没有达到需要特殊处理的程度,还要看不处理时训练出来的模型

机器学习之贝叶斯算法

贝叶斯分类器贝叶斯分类器的特点属性可以离散可以连续数学基础扎实,分类效率稳定对缺失值和噪声不敏感属性如果不相关(独立),效果很好,如果相关效果不低于决策树。原理设样本$\vec{x}=x_1,x_2...x_n$, 标记$y \in Y=\{ c_1, c_2,...,c_k\}$,P(X, Y)是X,Y的组合概率分布。训练集合$T=\{(\vec{x_1},y_1),(\vec{x_2,y_2)

postgres基本应用

postgres 数据库为已有的字段添加默认值ALTER TABLE table_name ALTER COLUMN column_name SET DEFAULT default_value;删除默认值ALTER TABLE table_name ALTER COLUMN column_name DROP DEFAULT;给postgre添加自增字段方法一:CREATE TABLE custom
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×