Common Patterns for Analyzing Data

前言

这篇文章是ARTS打卡英文分享的第一篇文章,文章很长,所以我计划用2篇文章完成原文的翻译和相关内容分享。感谢ARTS打卡群里身处国外的朋友提供的英文原文。

文章名称 Common Patterns for Analyzing Data 数据分析的通用模式

文集相关术语

data science 数据科学,对于数据分析,数据挖掘相关工作的泛指,一般会涉及统计学和计算机科学与技术两门学科
feature engineering 特征工程

行业类型:数据分析相关

数据集来源 Kaggle,Kaggle is the place to do data science projects

相关词汇

impart 给予 告知 传授
in handy for 方便的
rated 认定 认为
slice 切片
potential 潜力 潜能,潜在的
interactive 相互影响的,互相作用

数据总是混乱的,当我前几个月自学机器学习时,我不知道该如何更好的理解数据。构建一个准确的模型的关键步骤是对将要操作的数据的全面理解。

Data Scientists spend [the] vast majority of their time by [doing] data preparation, not model optimization. — lorinc

数据科学家们会花费大量时间在数据预处理过程中,而不是在模型优化。

用代码描述数据集

在数据预处理中处理空值和缺失值,是一个严肃的步骤

In this article, I chose a number of Exploratory Data Analyses (or EDAs) that were made publicly available on Kaggle, a website for data science. These analyses mix interactive code snippets alongside prose, and can help offer a birds-eye view of the data or tease out patterns in the data.

本篇文章的数据来源于kaggle,可以认为是探索性数据分析。kaggle是一个专门用于数据科学的网站。对数据结合代码片段进行分析,可以对原有数据形态进行一个鸟瞰。

I simultaneously looked at feature engineering, a technique for taking existing data and transforming it in such a way as to impart additional meaning (for example, taking a timestamp and pulling out a DAY_OF_WEEK column, which might come in handy for predicting sales in a store).

我同时查看了这个地址(https://www.quora.com/Does-deep-learning-reduce-the-importance-of-feature-engineering)下的数据分析文章,关于提取已有数据,追加更多的含义,比如把时间戳timestamp 单独提取到DAY_OF_WEEK列中,在一个商店的销售额预测中,可能会派上用场。

I wanted to look at a variety of different kinds of datasets, so I chose:
Structured Data
NLP (Natural Language)
Image

我希望查看不同种类的数据集,所以我从以下分类中进行选择
结构化数据
自然语言处理
图像数据

Feel free to jump ahead to the conclusions below, or read on to dive into the datasets.

Criteria
For each category I chose two competitions where the submission date had passed, and sorted (roughly) by how many teams had submitted.

对于每个分类,我从已通过的提交中选择两个竞赛项目,根据有多少个团队提交

For each competition I searched for EDA tags, and chose three kernels that were highly rated or well commented. Final scores did not factor in (some EDAs didn’t even submit a score).

在每个竞赛项目中,我以EDA为标签进行选择,被很好的推荐和高认可

Structured Data
结构化数据

A structured data dataset is characterized by spreadsheets containing training and test data. The spreadsheets may contain categorical variables (colors, like green, red, and blue), continuous variables (ages, like 4, 15, and 67) and ordinal variables (educational level, like elementary, high school, college).

Imputation — Filling in missing values in the data
Binning — Combining continuous data into buckets, a form of feature engineering

结构化数据是固定为训练数据和测试数据的电子表格。数据可能包含分类数据,如颜色,连续变量,顺序变量,如(学历水平,高中,大学)

装箱 压缩连续的数据,进入管道或者容器

The training spreadsheet has a target column that you’re trying to solve for, which will be missing in the test data. The majority of the EDAs I examined focused on teasing out potential correlations between the target variable and the other columns.

训练数据包含目标列,目标列就是需要预测的列,这一列在测试数据中并不包含。EDA的主要目的集中在目标变量和其它列之间的潜在关联关系。

Because you’re mostly looking for correlations between different variables, there’s only so many ways you can slice and dice the data. For visualizations, there’s more options, but even so, some techniques seem better suited for a task at hand than others, resulting in a lot of similar-looking notebooks.

Where you can really let your imagination run wild is with feature engineering. Each of the authors I looked at had different approaches to feature engineering, whether it was choosing how to bin a feature or combining categorical features into new ones.

在特征工程方面,你可以充分发挥你的想象力,我看到很多作者有不同的途径对于特征工程,无论他们是选择一个已存在的列还是合并分类特征到新的项。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,743评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,296评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,285评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,485评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,581评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,821评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,960评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,719评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,186评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,516评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,650评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,936评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,757评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,991评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,370评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,527评论 2 349

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,309评论 0 10
  • 可重入锁 VS 非可重入锁 可重入锁: 又名递归锁,是指在同一个线程在外层方法获取锁的时候,再进入该线程的内层方法...
    网虫子阅读 267评论 0 0
  • 我的机子已经盖上了,螺丝已拧上。不想再拆开拍照了,我告诉你怎么做:把电源盒子打开,看见2根线,一根红色,一根蓝色,...
    黑木黑木_0f76阅读 673评论 0 0
  • 春蚕到死丝方尽,蜡矩成灰泪始干
    心有多大舞台就有多大阅读 165评论 0 1