数据可视化也是数据挖掘的一部分工作,常见于挖掘前的分析和挖掘后的装X,哈哈,开玩笑,总之数据可视化是数据挖掘中的十分重要的一部分。接下来的几个分享就是针对数据可视化的内容来讲的,希望大家能够很好的使用现有的工具构建出更好、更美的模型。
常见的可视化图形
条形图和饼图
这应该是最古老的可视化方法啦,而且饼图适用于一个整体中不同部分的比较。条形图能够比较不同组的差异来来展示模式。
当数值型数据被很好的划分为不同类别,条形图尤其有效,你可以从数据中看出趋势。
说到饼图需要考虑的是『这几部分组成一个有意义的整体吗?』以及 你是否有充足的内容用圆形代表,使用饼图要注意扇形的数量不能超过8个。
箱线图
箱线图是一种基于最小值,上四分位数、中位数、下四分位数和最大值5个数值特征展示数据分布的标准方式。下图就是一个箱线图。
箱线图是一种从图形检查一组或者多组数据的快捷方式。占用空间小。
箱线图的应用场景
- 识别数据的离群点
- 确定数据是左偏还是右偏
- 快速比较不同数据集的分布
散点图
散点图是一种用来展示两个变量之间二维关系的可视化方法。常常用来描述各种相关性。
气泡图
在用三维空间比较数据之间关系时,气泡图大有帮助,它包括x轴和y轴,并用气泡大小表示数据。气泡图有点像散点图,但是散点图上每个点追加一个额外的数据取值信息,用xy点为中信的圆圈和气泡表示大小。
核密度估计图
核密度估计图是一种用来估计概率密度的非参数方法。可以通过观测数据点取平均实现平滑毕竟。
总结
现在看来不管算法上如何如何自动化,其实数据可视化仍然需要人工投入大量精力的工程,而可视化更加关注的是是否好理解为纬度的呈现。大家可以使用现有的开源包画几个图看看,并且使用到大家实际的工作中。