5个可以协理Pandas进行数据预处理的可视化图表

发布时间：2021-06-04 18:43:05 所属栏目：大数据来源：互联网

导读：数据科学行业中一个最常见的陷阱是花费数小时为他们的项目寻找最佳算法，而没有花足够的时间首先理解数据。数据科学和机器学习项目的结构化方法从项目目标开始。同一组数据点可以推断出一些有意义的信息。基于我们所寻找的，我们需要关注数据的另一个方面。

数据科学行业中一个最常见的陷阱是花费数小时为他们的项目寻找最佳算法，而没有花足够的时间首先理解数据。

数据科学和机器学习项目的结构化方法从项目目标开始。同一组数据点可以推断出一些有意义的信息。基于我们所寻找的，我们需要关注数据的另一个方面。一旦我们明确了目标，我们就应该开始考虑我们需要的数据点。这将使我们能够专注于最相关的信息集，而忽略可能不重要的数据集。

在现实生活中，从多个来源收集到的大多数时间数据都有空白值、打字错误和其他异常。在进行任何数据分析之前，清除数据是至关重要的。

在本文中，我将讨论五个强大的数据可视化选项，它们可以立即提供数据特征的感觉。即使在正式建模或假设测试任务之前，执行EDA就可以传达大量关于数据和特征之间关系的信息。

第1步-我们将导入pandas、matplotlib、seaborn和NumPy包，我们将使用这些包进行分析。我们需要散点图、自相关图、滞后图和平行图。

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

from pandas.plotting import autocorrelation_plot

import seaborn as sns

from pandas.plotting import scatter_matrix

from pandas.plotting import autocorrelation_plot

from pandas.plotting import parallel_coordinates

from pandas.plotting import lag_plot

第2步-在Seaborn包中，有一个内置的小数据集。我们将使用"mpg"、"tips"和"attention"数据进行可视化。数据集是在seaborn中使用load_dataset方法加载的。

"""Download the datasets used in the program """

CarDatabase= sns.load_dataset("mpg")

MealDatabase= sns.load_dataset("tips")

AttentionDatabase= sns.load_dataset("attention")

六边形分箱图(hexpin)

我们经常使用散点图来快速掌握变量之间的关系。只要图中没有人口稠密的数据点，获得一个洞察力是非常有帮助的。在下面的代码中，我们绘制了"mpg"数据集中"Horsepower" 和"Acceleration"数据点之间的散点图。

plt.scatter(CarDatabase.acceleration ,CarDatabase.horsepower,marker="^")

plt.show()

散点图中的点密集分布，从中获取有意义的信息有点困难。

5个可以帮助pandas进行数据预处理的可视化图表

hexpins是解决重叠点散点图的一个很好的替代方案。每个点不是在hexbin图中单独绘制的。在下面的代码中，我们用相同的数据集在"Horsepower" 和"Acceleration"之间绘制一个hexbin。

CarDatabase.plot.hexbin(x='acceleration', y='horsepower', gridsize=10,cmap="YlGnBu")

plt.show()

在hexpin图中可以清楚地推断"Horsepower" 和"Acceleration"范围集中值，变量之间呈负线性关系。六边形的大小取决于"网格大小"参数。

（编辑：广安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

AI、大数据、云计算等	撒花！哈师大团队摘得
芯片技术公司Arm计划减	手把手带你学习人工神