在上一章中,无涯教程讨论了数据对于机器学习算法的重要性,以了解具有统计信息的数据,还有另一种称为可视化的方式来理解数据。

借助数据可视化,可以看到数据的属性保持什么样的关联,这是查看要素是否与输出相对应的最快方法,可以了解具有统计信息的ML数据。

单变量

最简单的可视化类型是单变量可视化,借助单变量可视化,可以独立了解数据集的每个属性,以下是Python中用于实现单变量可视化的一些技术-

Sr.NoUnivariate Plots & 描述
1 Histograms

直方图将数据按箱进行分组,这是了解有关数据集中每个属性分布的最快方法。

2 Density Plots

获取每个属性分布的另一种快速简便的技术是密度图。

3 Box and Whisker Plots

Box和Whisker图(也简称为boxplots)是另一种有用的技术,可用于检查每个属性的分布情况。

多变量

可视化的另一种类型是多变量可视化,借助多元可视化,可以了解数据集多个属性之间的相互作用,以下是Python中实现多元可视化的一些技术-

Sr.NoMultivariate Plots & 描述
1 Correlation Matrix Plot

相关性是有关两个变量之间变化的指示。

2 Scatter Matrix Plot

散点图借助二维点来显示一个变量受另一个变量影响的程度或它们之间的关系。

机器学习 – 数据可视化 – 无涯教程网无涯教程网提供在上一章中,无涯教程讨论了数据对于机器学习算法的重要性,以了解具有统计信息的数据…https://www.learnfk.com/python-machine-learning/machine-learning-with-python-understanding-data-with-visualization.html