xgboost(一)之cart树

最近因为工作原因,需要重新回顾xgboost,原来我个人也仅仅限制于使用,没有过多总结,借着这次机会,正好回顾一下这款神器。提到xgboost就必须要提一下cart树,这个是xgboost的基本组成单元。cart树之前微博中提到决策树,可能包括ID3和cs4.5这些算法,其实cart树和这些算法没有什么本质的区别,都是找到一些分割点,然后构建决策树,这里我们主要介绍一下cart的细节,其实这个也是

机器学习之xgboost算法

xgboostxgboost可能是现在用的最多的模型了,炒的火热的深度学习解决实际业务的落地点还是比价少的,比起这种可解释模型,在工程界可能更加受追捧。xgboost的组成话说xgboost是由什么组成的呢?答案就是一堆CART树,但是有了这些CART树怎么做预测呢,难倒是投票,好吧也是一种方式,但

机器学习之PCA算法

数据降维数据对于算法工程师来说可以说是无限复杂的,而这个复杂我们是不可能预估的,聪明而又懒惰嗯数据科学家发明一种方法叫做降维,不管你有多少维,维就要处理20维,所以这就是数据降维的由来,本文会介绍一种非常普通且好使的数据降维的方法--PCA数据降维是机器学习下比较热门的一个话题,在数据挖掘的领域我们

机器学习之lda算法

思考如下问题,如果有一个数据集合不是特别容易分类,这个可能是我们的数据维度并不能描述我们的数据本身,导致我们不能将数据完全切分开,如果能经过相应的变换,让我们的数据在某个变换以后变得显而易见,那是不是我们就解决了分类问题呢?本文就将介绍这这样的一个算法。就如下图所示。LDA算法描述现在我们用白话了解

机器学习之KNN算法

K近邻算法K近邻算法是各种机器学习算法中最简单的一个,简单说就是计算分类对象距离已知对象的值。K近邻三要素k值选择分类决策距离度量当k=1时候,K近邻成为最近邻算法。kd树k近邻算法进行近邻搜索的时候是个问题。怎样构造一棵Kd-tree?对于Kd-tree这样一棵二叉树,我们首先需要确定怎样划分左子树和右子树,即一个K维数据是依据什么被划分到左子树或右子树的。在构造1维BST树时,一个1维数据根据

机器学习之支持向量积

支持向量机支持向量机,千呼万唤始出来,SVM作为远古时期最接近深度学习的算法,理论想起来比较简单,但是想要理解深刻还是需要花些周章的,这里会尽我所能给出一个比较好解释的方式。SVM应该是第一个解决线性不可分的算法,假如我没有孤陋寡闻的话,这里会介绍基本的SVM原理,高维度经过核函数转换的会提到,但是

机器学习之正则化

正则化正则化是结构风险最小化策略的实现,模型越复杂,正则化项越大(参数越多),所以正则化项可以采用参数向量的范数。正则化的目的是选择经验风险和复杂度同时最小的一个模型。正则化选择我们经常使用L1范数或是L2范数进行作为正则化项,甚至你还知道引入这种范数能够减低过拟合的问题,但是引入了正则化项就能防止过拟合呢?先看看这些范数都是怎么定义的。ω 是属性权重L0范数: ω 的非0元素的个数。L1范数:

机器学习之线性回归

线性回归线性回归被认为是很多机器学习书籍的入门模型,其实这个模型的地位并不轻,毕竟线性回归包含几乎所有机器学习方法的流程,所谓麻雀虽小,五脏俱全。下面我们就线性回归模型的一些知识。##理论数据形式对于线性回归我们面对的原始数据就是每一个维度的特征。原始数据:$$\vec{x}=(x{(1)})...

机器学习之特征工程

预处理预处理是机器学习一个基础问题,但是没有时间将预处理的方式进行整理,这次就将预处理的方式进行部分整理。归一化对于数值类型的特征可以进行归一化操作,而归一化意味着将现有数据整理到某一个范围内。线性函数归一化目标是将所有的数据归一化到[0,1]之间。$$X = \frac{X-X_i}{X_m-X_i}$$$X_m$代表X序列最大值,$X_i$代表X序列的最小值。零均值归一化目的是将原始数据归一化

机器学习之模型评估

模型的评估错误率错误率指的的是分类错误的样本数占总样本的比例精度精度指的是分类正确的样本数占总样本的比例。查准率和查全率错误率和精度虽然常用,但是对于某些问题来说并不能完全的评估一个模型好坏。下面来看一个混淆矩阵然后来说明我们我概念。查准率的定义为:$$P=\frac{TP}{TP+FP}$$查全率
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×