蓝盟-系统集成-蓝盟官网

蓝盟IT外包，4种简单的可视化Python数据的方法

数据可视化是任何数据科学或机器学习项目的重要组成部分

数据可视化是任何数据科学或机器学习项目的重要组成部分。人们经常开始数据分析（EDA）以深入了解他们的数据。创建可视化可以使问题更清晰，更易于理解，尤其是对于大型高维数据集。在项目结束时，应该能够清晰，简洁和令人信服地呈现最终结果，以便用户理解和理解。您可以看到上一篇文章《5种快速和简单的Python数据可视化方法(含代码)》（使用代码在Python中进行五个快速简便的数据可视化）。以下是五种基本的可视化方法：散点图，线图，直方图，条形图和框。形状图表。这5个是简单而强大的可视化方法，您可以从数据集中获得这些方法。本文介绍了另外四种数据可视化方法，但它有点复杂，因此您可以在阅读上一篇文章中描述的基本方法后使用它。
　　热图
　　热图是数据的矩阵表示，其中每个矩阵中的值被着色。不同的颜色代表不同的级别，矩阵索引组合了两个对比的列或函数。因为热图可以直接用颜色来考虑水平，所以它们可以显示不同特征变量之间的关系。通过查看热图中的某些点，您可以看到每个关系如何与数据集中的其他关系进行比较。这种颜色非常直观，表达方式简单。
　　4种简单的可视化Python数据的方法
　　现在看一下代码。与matplotlib库相比，seaborn库可用于高级图表，通常需要更多组件，如更多颜色，图形或变量。 Matplotlib库用于显示图表，numpy用于生成数据，pandas用于控制。绘图简单地称为简单的seaborn功能。如果您发现视觉上特殊的东西，您也可以使用此功能设置色彩映射。
　　4种简单的可视化Python数据的方法
　　二维密度图
　　2D密度图是一维版本的简单扩展，显示了两个变量的概率分布。我们来看下面的二维密度图。右侧的刻度显示每个点的颜色概率。查看数据集，最高概率似乎约为0.5幅度和1.4速度。如您所见，二维密度图对于快速确定数据最关注两个变量的位置非常重要，而不是像一维密度图那样关注一个变量。如果您有两个对输出很重要的变量，并且您想了解它们在输出分布中如何协同工作，那么二维密度映射尤其有用。4种简单的可视化Python数据的方法
　　Seaborn的代码非常简单，并通过创建偏斜的分布来介绍它。如果某些颜色和阴影在视觉上更具体，那么大多数可选参数都更清晰。
　　蜘蛛情节
　　蜘蛛地图是显示一对多关系的最佳方式之一。也就是说，您可以绘制和查看单个变量或类别以及其他几个变量的值。在蜘蛛图中，由于面积和长度在某些方向上发生变化，变量相对于其他变量的特征是显而易见的。如果您想知道这些变量中有多个类别重叠，您可以并排绘制它们。在下面的图像中，您可以轻松比较三个电影角色的各种属性，并了解它们的优势！
　　4种简单的可视化Python数据的方法
　　这一次，您可以使用matplotlib而不是seaborn来创建自己的可视化。由于我们希望每个属性沿圆周均匀放置，我们需要计算每个属性所在的角度。将标签放置在每个计算的角度，并将值绘制到距离中心的距离取决于该值或水平的点。最后，为了清楚起见，我们使用半透明颜色用连接各种属性点的线条填充所包含的区域。
　　4种简单的可视化Python数据的方法
　　树图
　　我从小学就开始使用树形图，它们很自然，直观且易于解释。直接连接的节点密切相关，并且与具有多个连接的节点非常不同。根据下图中的统计数据，我画了一小部分神奇宝贝，其中包含了Kaggle的统计数据集。
　　HP，攻击，防御，特殊攻击，特殊防御，速度
　　因此，与统计数据最匹配的神奇宝贝是紧密相连的。例如，在顶部，Arbok和Fearow直接连接，如果你看数据，总共有438个Arbok，而Fearow非常接近442。但如果我们去Raticate，我们得到的总数是413，这与Arbok和Fearow非常不同。移动树，口袋妖怪越来越多地根据相似性分成几组。即使没有直接的绿色连接，绿色组中的神奇宝贝也比红色组更相似。
　　4种简单的可视化Python数据的方法
　　对于树，我实际上使用Scipy。检查数据集并删除String类型的列。我这样做只是为了获得正确的可视化结果，但实际上最好将这些字符串转换为分类变量。您可以通过设置数据框索引来获得更好的结果并进行比较。将其用作引用每个节点的列。最后，在Scipy中计算和绘制树非常简单。

返回列表

微软云

IT采购

弱电工程

系统集成

客户故事

蓝盟IT外包，4种简单的可视化Python数据的方法

相关解决方案

400-635-8089