蓝盟IT外包,4种简单的可视化Python数据的方法

数据可视化是任何数据科学或机器学习项目的重要组成部分

       数据可视化是任何数据科学或机器学习项目的重要组成部分。人们经常开始数据分析(EDA)以深入了解他们的数据。创建可视化可以使问题更清晰,更易于理解,尤其是对于大型高维数据集。在项目结束时,应该能够清晰,简洁和令人信服地呈现最终结果,以便用户理解和理解。您可以看到上一篇文章《5种快速和简单的Python数据可视化方法(含代码)》(使用代码在Python中进行五个快速简便的数据可视化)。以下是五种基本的可视化方法:散点图,线图,直方图,条形图和框。形状图表。这5个是简单而强大的可视化方法,您可以从数据集中获得这些方法。本文介绍了另外四种数据可视化方法,但它有点复杂,因此您可以在阅读上一篇文章中描述的基本方法后使用它。
  热图
  热图是数据的矩阵表示,其中每个矩阵中的值被着色。不同的颜色代表不同的级别,矩阵索引组合了两个对比的列或函数。因为热图可以直接用颜色来考虑水平,所以它们可以显示不同特征变量之间的关系。通过查看热图中的某些点,您可以看到每个关系如何与数据集中的其他关系进行比较。这种颜色非常直观,表达方式简单。
  4种简单的可视化Python数据的方法
  现在看一下代码。与matplotlib库相比,seaborn库可用于高级图表,通常需要更多组件,如更多颜色,图形或变量。 Matplotlib库用于显示图表,numpy用于生成数据,pandas用于控制。绘图简单地称为简单的seaborn功能。如果您发现视觉上特殊的东西,您也可以使用此功能设置色彩映射。
  4种简单的可视化Python数据的方法
  二维密度图
  2D密度图是一维版本的简单扩展,显示了两个变量的概率分布。我们来看下面的二维密度图。右侧的刻度显示每个点的颜色概率。查看数据集,最高概率似乎约为0.5幅度和1.4速度。如您所见,二维密度图对于快速确定数据最关注两个变量的位置非常重要,而不是像一维密度图那样关注一个变量。如果您有两个对输出很重要的变量,并且您想了解它们在输出分布中如何协同工作,那么二维密度映射尤其有用。4种简单的可视化Python数据的方法
  Seaborn的代码非常简单,并通过创建偏斜的分布来介绍它。如果某些颜色和阴影在视觉上更具体,那么大多数可选参数都更清晰。
  蜘蛛情节
  蜘蛛地图是显示一对多关系的最佳方式之一。也就是说,您可以绘制和查看单个变量或类别以及其他几个变量的值。在蜘蛛图中,由于面积和长度在某些方向上发生变化,变量相对于其他变量的特征是显而易见的。如果您想知道这些变量中有多个类别重叠,您可以并排绘制它们。在下面的图像中,您可以轻松比较三个电影角色的各种属性,并了解它们的优势!
  4种简单的可视化Python数据的方法
  这一次,您可以使用matplotlib而不是seaborn来创建自己的可视化。由于我们希望每个属性沿圆周均匀放置,我们需要计算每个属性所在的角度。将标签放置在每个计算的角度,并将值绘制到距离中心的距离取决于该值或水平的点。最后,为了清楚起见,我们使用半透明颜色用连接各种属性点的线条填充所包含的区域。
  4种简单的可视化Python数据的方法
  树图
  我从小学就开始使用树形图,它们很自然,直观且易于解释。直接连接的节点密切相关,并且与具有多个连接的节点非常不同。根据下图中的统计数据,我画了一小部分神奇宝贝,其中包含了Kaggle的统计数据集。
  HP,攻击,防御,特殊攻击,特殊防御,速度
  因此,与统计数据最匹配的神奇宝贝是紧密相连的。例如,在顶部,Arbok和Fearow直接连接,如果你看数据,总共有438个Arbok,而Fearow非常接近442。但如果我们去Raticate,我们得到的总数是413,这与Arbok和Fearow非常不同。移动树,口袋妖怪越来越多地根据相似性分成几组。即使没有直接的绿色连接,绿色组中的神奇宝贝也比红色组更相似。
  4种简单的可视化Python数据的方法
  对于树,我实际上使用Scipy。检查数据集并删除String类型的列。我这样做只是为了获得正确的可视化结果,但实际上最好将这些字符串转换为分类变量。您可以通过设置数据框索引来获得更好的结果并进行比较。将其用作引用每个节点的列。最后,在Scipy中计算和绘制树非常简单。
相关解决方案

Related Solution

>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部