程序员如何优雅的处理杂乱的传感器数据?

姓名:郭金  学号:17101223407

转载自:http://mp.weixin.qq.com/s/TQndJPlQFKAl3GXnTUN1mA

【嵌牛导读】:这篇文章中,我会向你解释如何使用 Pandas 以及 Python 来处理杂乱的数据。如果你从来没用过 Pandas,并且你拥有一定的 Python 基础,那么这篇文章正适合你。

【嵌牛鼻子】:数据处理、python

【嵌牛提问】:为什么有两个午夜时间?

【嵌牛正文】:

      天气数据是现实世界中一类很好的杂乱数据集案例。其中包含了不同的内容,不规则的数据,以及各种各样的时区。前面说的这些点对于数据科学家来讲都是很致命的痛点。我会通过下面的例子来向你介绍如何处理这种混合的、不规则的数据内容。至于如何处理古怪的时区数据,可以参考 Mario Corchero’s 发表的这篇文章 How to work with dates and time with Python。

    让我们先从如何将杂乱无章的数据变为可用的数据集开始。具体的代码在 GitHub 上面。

读取一个 CSV 文件

      你可以通过下面的方式来读取一个 Pandas 文件:

pandas.read_csv():向打开表格一样打开 CSV 文件,并存放到 DataFrame 当中。

DataFrame.head():展示 DataFrame 的前五条数据。

    DataFrame 就是 Pandas 中的一个表格;DataFrame 有一列存放了行号来作为索引。CSV 文件很适合用 DataFrame 来处理,因为 CSV 文件本身就是行和列格式的数据。

图片发自简书App
图片发自简书App

      可以看到,我们的数据是通过\t 制表符来隔开地。

      pandas.read_csv() 方法针对不同的场景,提供了不同的参数。现在你能观察到,你的数据中包含一列 Data 类型数据,以及一列 Time 类型数据。你可以尝试通过添加一些关键字来为你的程序增加一些智能:

sep:指定列的分隔符

parse_dates:将列中数据按照 date 类型来进行解析

dayfirst:采用 DD.MM.YYYY 的格式,而不是默认的月份开头的格式

infer_datatime_format:让 Pandas 来分析数据的时间格式并解析

na_values:将某些值当做空值处理

      通过这些关键字参数,可以让 Pandas 代替你完成一些格式化的处理工作。

图片发自简书App
图片发自简书App
Pandas 很好的处理 Date 和 Time 这两列数据,并且转为了一个标准化的格式。

你会发现其中有个 NaN 值,但是不要跟 “not a number” 这个含义混淆。NaN 只是 Pandas 用于展示空数据的方式。

数据排序

让我们看下 Pandas 是如何将数据排序的。

DataFrame.sort_values():将数据排序

DataFrame.drop_duplicates():去除重复项

DataFrame.set_index():指定某一列作为索引

因为时间数据看起来是是有序的,让我们排个序:

图片发自简书App
图片发自简书App
为什么有两个午夜时间?因为我们的数据集(原始数据)当中,一个午夜时间既在前一天的结束时记录,又被后一天在开始记录。你可以删除一条重复记录。

合理的排序方式是首先去掉重复项,然后对数据进行排序,最后设置索引。

图片发自简书App
现在你已经有了一个时间作为索引的 DataFrame 数据集,而接下来我们将针对这个数据集继续处理。首先,让我们对风向数据做一些转义。

数据转义

为了给天气模型准备一些可用的风向数据,你需要将风向数据转为数字格式。转化的规则是:北风 (↓) 是 0 度,然后顺时针 ⟳ 增加度数。东风 (←) 是 90 度,以此类推。你可以使用 Pandas 来处理这个转义过程:

Series.apply():通过一个函数来处理每项数据的转义为了获取每个风向的准确值,我定义了一个只包含 16 个关键字的字典结构的数据集。这个字典应该很小并很容易理解。

图片发自简书App
在 Pandas 中,你可以通过 Series,一种按照索引访问 DataFrame 的方式来处理数据,就像 Python 中字典类一样。在转义之后,Series 中的值被替换为新的值。
图片发自简书App
图片发自简书App
每一个合法的风向值现在都被转换为一个数字。具体数字是一个字符串还是其他别的类型的数字格式并不重要,你都可以通过 Series.apply() 来进行转义。

频繁的设置索引

当你深入分析数据的时候,你会发现数据集中存在下面的缺陷:

图片发自简书App
图片发自简书App
每一个合法的风向值现在都被转换为一个数字。具体数字是一个字符串还是其他别的类型的数字格式并不重要,你都可以通过 Series.apply() 来进行转义。

频繁的设置索引

当你深入分析数据的时候,你会发现数据集中存在下面的缺陷:

图片发自简书App
图片发自简书App
00:33:00? 01:11:00? 这些都是奇怪的时间戳。下面有个函数来保证一致性:

DataFrame.asfreq():强制索引上数据的步频,过滤掉无效数据,并用正确的数据填充。

图片发自简书App
图片发自简书App
Pandas 删除那些不满足间隔的数据并填充一个正确的值。当无法填充的时候,则插入一个空行。现在你有一个间隔保持一致的索引了。让我们用一种流行的绘图库 matplotlib 来看一下数据的曲线:
图片发自简书App
图片发自简书App
仔细看能够发现,在 6 月 6 号、7 号等时间点上存在空隙。你需要填充一些有含义的数据来弥补这个空隙。

为空行插入新数据

你可以按照线性函数的规律来填充空缺值,或者在开始点和结束点之间划线,并按照这种规律来修正每个时间戳数据。

Series.interpolate():线性方式填充空缺数据值。下面展示如何通过 inplace 关键字来告知 Pandas 对数据进行替换和修复。

图片发自简书App
图片发自简书App
可以发现,NaN 数值已经被替换了。接下来让我们重新绘制图并看一下效果:
图片发自简书App
图片发自简书App
恭喜你!你的数据集现在可以被用于天气处理了。你可以下载 GitHub 上的例子 并操作一遍。

总结

通过上述文章,我已经展示了在 Python 和 Pandas 中,凭借多种方式处理杂乱的数据,例如:

读取 CSV 文件并转为合适的数据结构

将你的数据集进行排序

通过函数对列值进行转义

将数据变的规则

填充丢失的数据

绘图方式展示数据集

Pandas 提供了更多更强力的函数,这些你都可以在 Pandas 的 文档 ,以及他的 10 分钟介绍 中找到。你可能还能找到一些语法糖。如果使用过程中发现任何问题,或者有一些好的想发

数据处理愉快!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容