Pandas基础之旅

用Python处理过数据的人大概对pandas不陌生。

如果想处理行或列排序的格式化数据，大多数情况下，你可以使用pandas处理。如果没安装pandas，可以用你喜欢的命令终端安装，一定要用pip命令：

pip install pandas

现在，让我们看看默认的pandas实现都可以做什么：

非常简洁，但也很平淡无奇，“method”这列去哪儿？

我们解释一下上面代码和输出的含义：

Pandas的任何“数据帧”都有一个describe()方法，这个方法会返回上面的输出。但请注意，这个方法的以上输出数据中，关于类别的变量漏掉了。在上面的例子中，输出信息里，“method”这一列被完全移除。

让我们看看是否能做得更好。

Pandas剖析

这仅仅是剖析报告的开头部分

如果我告诉你，我仅用3行Python代码即可生成以下统计数据，你会感觉如何（如果不算imports语句的话，实际上只需要1行代码即可）：

（以上特征列表直接摘自Pandas Profiling GitHub页面）

使用Pandas Profiling包，我们仅用1行代码就可以得到以上数据！在命令行终端只需使用pip即可安装Pandas Profiling包：

pip install pandas_profiling

乍一看，经验丰富的数据分析师可能会嘲笑这是华而不实的，但是，它可以帮助你快速获得你拥有的数据概况：

看到了吗，正如我所说，1行代码搞定！

你看到的第一部分内容是“概览”（请看上图），这部分内容会呈现给你一些非常高级的数据和变量统计，以及像变量高相关性和高偏态性等这类警告。

但是它提供的信息远远不止这些。往下滑动，我们会发现这份输出报告包含多个部分。仅用图片显示这个1行代码的输出都是不大合适的，所以我制作了一张GIF图：

我强烈建议你自己来探索这个软件包里的特色——毕竟，这只有1行代码，而且你会在以后的数据分析中发现这个软件包真的很好用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

如果你喜欢使用这些易用的东西来改进你的Python工作流，可以看看我的一些最新文章。

这篇文章真的很短小。我自己才刚刚发现Pandas Profiling这个库，觉得可以拿来分享！

原文链接：

Exploring your data with just 1 line of Python