姓名:郭金 学号:17101223407
转载自:http://mp.weixin.qq.com/s/TQndJPlQFKAl3GXnTUN1mA
【嵌牛导读】:这篇文章中,我会向你解释如何使用 Pandas 以及 Python 来处理杂乱的数据。如果你从来没用过 Pandas,并且你拥有一定的 Python 基础,那么这篇文章正适合你。
【嵌牛鼻子】:数据处理、python
【嵌牛提问】:为什么有两个午夜时间?
【嵌牛正文】:
天气数据是现实世界中一类很好的杂乱数据集案例。其中包含了不同的内容,不规则的数据,以及各种各样的时区。前面说的这些点对于数据科学家来讲都是很致命的痛点。我会通过下面的例子来向你介绍如何处理这种混合的、不规则的数据内容。至于如何处理古怪的时区数据,可以参考 Mario Corchero’s 发表的这篇文章 How to work with dates and time with Python。
让我们先从如何将杂乱无章的数据变为可用的数据集开始。具体的代码在 GitHub 上面。
读取一个 CSV 文件
你可以通过下面的方式来读取一个 Pandas 文件:
pandas.read_csv():向打开表格一样打开 CSV 文件,并存放到 DataFrame 当中。
DataFrame.head():展示 DataFrame 的前五条数据。
DataFrame 就是 Pandas 中的一个表格;DataFrame 有一列存放了行号来作为索引。CSV 文件很适合用 DataFrame 来处理,因为 CSV 文件本身就是行和列格式的数据。
可以看到,我们的数据是通过\t 制表符来隔开地。
pandas.read_csv() 方法针对不同的场景,提供了不同的参数。现在你能观察到,你的数据中包含一列 Data 类型数据,以及一列 Time 类型数据。你可以尝试通过添加一些关键字来为你的程序增加一些智能:
sep:指定列的分隔符
parse_dates:将列中数据按照 date 类型来进行解析
dayfirst:采用 DD.MM.YYYY 的格式,而不是默认的月份开头的格式
infer_datatime_format:让 Pandas 来分析数据的时间格式并解析
na_values:将某些值当做空值处理
通过这些关键字参数,可以让 Pandas 代替你完成一些格式化的处理工作。
你会发现其中有个 NaN 值,但是不要跟 “not a number” 这个含义混淆。NaN 只是 Pandas 用于展示空数据的方式。
数据排序
让我们看下 Pandas 是如何将数据排序的。
DataFrame.sort_values():将数据排序
DataFrame.drop_duplicates():去除重复项
DataFrame.set_index():指定某一列作为索引
因为时间数据看起来是是有序的,让我们排个序:
合理的排序方式是首先去掉重复项,然后对数据进行排序,最后设置索引。
数据转义
为了给天气模型准备一些可用的风向数据,你需要将风向数据转为数字格式。转化的规则是:北风 (↓) 是 0 度,然后顺时针 ⟳ 增加度数。东风 (←) 是 90 度,以此类推。你可以使用 Pandas 来处理这个转义过程:
Series.apply():通过一个函数来处理每项数据的转义为了获取每个风向的准确值,我定义了一个只包含 16 个关键字的字典结构的数据集。这个字典应该很小并很容易理解。
频繁的设置索引
当你深入分析数据的时候,你会发现数据集中存在下面的缺陷:
频繁的设置索引
当你深入分析数据的时候,你会发现数据集中存在下面的缺陷:
DataFrame.asfreq():强制索引上数据的步频,过滤掉无效数据,并用正确的数据填充。
为空行插入新数据
你可以按照线性函数的规律来填充空缺值,或者在开始点和结束点之间划线,并按照这种规律来修正每个时间戳数据。
Series.interpolate():线性方式填充空缺数据值。下面展示如何通过 inplace 关键字来告知 Pandas 对数据进行替换和修复。
总结
通过上述文章,我已经展示了在 Python 和 Pandas 中,凭借多种方式处理杂乱的数据,例如:
读取 CSV 文件并转为合适的数据结构
将你的数据集进行排序
通过函数对列值进行转义
将数据变的规则
填充丢失的数据
绘图方式展示数据集
Pandas 提供了更多更强力的函数,这些你都可以在 Pandas 的 文档 ,以及他的 10 分钟介绍 中找到。你可能还能找到一些语法糖。如果使用过程中发现任何问题,或者有一些好的想发
数据处理愉快!