数据科学家、大数据、统计学

本文观点来自对《如何成为一位数据科学家——大数据时代的统计学思考》(Rachel Schutt, Cathy O'Neil)的阅读。

文中并没有给出数据科学家的定义,但是给出了其应具有的技能:统计学、线性代数、编程技能、数据预处理、数据再加工、数据建模、可视化和有效沟通。而该篇文章只对统计学进行了介绍。

一、统计推断

“数据就是现实世界运转留下来的痕迹。而这些痕迹会被如何展示出来,则取决于我们采用什么样的数据收集和样本采集方法”。作为数据科学家,其任务是将现实世界转化为抽象数据,然后从抽象数据中发现知识,再将该知识应用于现实世界。这个过程可能不是一次性的,更可能是迭代的。因为未必一次发现的知识就是完全正确的。可能还要将该知识在现实世界中再进行验证,然后根据验证结果再进行一轮现实世界——数据抽象——现实世界的过程。这一从现实世界到数据,再从数据到现实世界的流程就是统计推断的领域。这门学科关注从过程产生的数据中提取信息,包含流程、方法和理论。由于整个过程中人(数据科学家)的存在,因此这并不是像人们想的那样是客观的,而是明显主观的。例如可以选择不同的过程,以及通过不同的方式采集得到不同的数据。

二、总体和样本

这个比较好理解,总体就是全部的观察对象,样本就是总体中的选取的一个子集。但这涉及到如何选取这个子集,即采样方法的问题。如果采样方法存在偏差,那么通过对样本的研究得出的结论也是有偏差的。

这里,作者提到了大数据。即如果有能力对所有数据进行分析,还需要进行采样分析吗?作者也并没有直接回答这个问题,而是指出即使在谷歌,数据科学家和统计学家都在用到采样来处理大数据。而且是否采样也取决于个人想实际解决的问题。

我的理解是,大数据技术(Hadoop,Spark等)提供了更有力量的一个手段来帮助人们进行更全面的分析,但它也有相应的代价,包括人力成本、计算成本和时间成本。就像杀鸡是否要用牛刀一样,不同问题还是适合用不同的工具来解决。因此采样统计仍然是解决问题的一个可选手段。

三、偏差

这里举了个有趣的例子,微软研究院的Kate Crawford女士提到,如果对飓风桑迪前后对推特数据进行分析,会得到如下结论:人们在飓风来临前在购物,飓风过后在聚会。这里的购物可不是为了应对飓风而大采购。好像这个结论告诉大家飓风对人们没什么影响。但实际上,由于分析的样本就不对,结论自然不对。推特的重度用户是纽约人,他们的确是完全不受飓风影响的,但那些受飓风影响的人们却不怎么发推特。这就是采样导致的偏差的一个例子。

四、新的数据类型

由于互联网的快速发展,要分析的数据类型也从原来简单的数据(数字、分类变量和二进制变量)发展为更加丰富的数据类型,包括:

文字:电子邮件、微博、网站上的文章等;

记录:用户数据、带有时间戳的事件记录和JSON格式的日志文件;

地理位置信息数据;

网络:这里应该指的是例如朋友关联、人际关系等事物之间连接关系构成的网络或图;

多媒体信息:包括图片、音频和视频等。

这些新数据类型的出现使得数据科学家在选择数据时应更谨慎,并且需要研究不同类型的分析方法。

作者还给出了其对“大数据”的理解:大数据是大是相对的,20世纪70年代的大数据概念和现在的大数据概念是不一样的。当用一台机器无法处理时,就可以称为“大数据”。

另外,作者并不认同库克耶和迈尔-舍恩伯格的文章“The Rise of Big Data”中的观点:接受数据中存在杂乱噪声;重视结论,放弃探究产生结果的原因。他们提出这观点的原因是,认为总体就是全部,有了全部,就能够得出正确的结论。但本文作者认为总体并不等于全部。因为总体其实也取决于数据科学家的判断,一旦判断出错,认为是全体研究对象产生了这些数据,但实际上只是部分研究对象产生的,就会发生错误。正如同上述的通过推特用户研究飓风影响的例子。也正因为此,作者提出“数据是不客观的”。

五、建模

作为一名数据科学家,建模是不可避免的研究数据的手段。通过建模找出数据的规律,并采用模型表示这些规律,以及用于在现实世界中进行进一步验证。模型有很多表达方式,在不同的学科和领域有不同的形式,比如建筑学中用蓝图和三维立体模型,分子生物学中用连接氨基酸的三维图像表示蛋白质结构,数据科学家用函数来描述数据的规律。

那么等于一堆看起来杂乱无章的数据,应该怎么建模呢?应该怎么选择模型呢?作者认为模型的选择一半是艺术,一半是科学。无非还是需要依靠假设、从最简单模型起步、探索性分析、反复尝试以及模型复杂度(建模代价)与模型准确率之间的权衡等方式。接着作者对建模时用到的最基本的概率分布进行了介绍。这些就是概率书本上的一些经典概率分布,这里直接引用了原文中的图:

几种典型概率分布

另外,要避免建模过程中出现过拟合问题。所谓过拟合,也就是模型对于样本数据特别符合,但对于样本之外的数据却并不能准确描述。也就是说建立的模型失去了其普适性,往往是因为对于样本数据过于调优所致。

六、数据科学的工作流程

这里也直接引用原文中的图:

数据科学工作流程

该流程中的几个活动从字面上都比较能直观地理解其含义。但可以看到几个特点:

活动之间有迭代。从探索性数据分析可能会回到收集原始数据,再进行一次迭代。因为探索性分析就有可能出现分析错误,所以需要再次进行从头开始。

活动不是按照固定步骤进行。没有固定的流程,有些活动是可以跳过的。例如清理数据后,可以选择机器学习算法训练模型,然后再进行沟通、可视化和报告,也可以清理数据结束就进入到沟通、可视化和报告。还有就是机器学习之后可以进入到构建数据产品。其实这些活动往往取决于此次数据分析的目的,有时候可以跳过某些活动,有时候这些活动可以并行执行。

模型结果要反馈回现实世界。就是图中的虚线箭头。因为一次分析往往只是对采样样本进行研究得到模型,但是否能够适用于更广大的未采样样本,还需要进一步验证。另外,得到了数据模型,往往是需要依据该模型进行决策,调整系统,然后将调整的系统再次在现实世界中运行,看是否能够达到调整预期。例如,根据对网站用户行为的建模,调整了推荐系统的推荐策略,实施后是否真的提升了网站的产品销售量,就需要进一步验证研究了。

七、数据科学家在数据科学工作流程中的角色

这里也引用了原文中的图:

数据科学家的活动

其实,大家要注意,这张图只是举例这几个环节需要数据科学家做哪些活动,但并不是说数据科学家仅仅参与这几个环节,其实很容易想到他们肯定还要参与所有后续活动,如探索性数据分析、机器学习、沟通和构建数据产品等。

以上,就是基于原文对数据科学家的一个简单介绍。原文对几个观点的质疑还是比较中肯。例如对2008年《Wired》杂志主编Chris Anderson在杂志上发表的文章“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”中所认为的,数据即信息,有了数据就不需要哦行了,了解相关性就够了。并且说以海量数据为例,“谷歌根本没有使用模型”。显然上述说法明显是有问题的。还有就是对库克耶和迈尔-舍恩伯格提的“N=全部”观点的质疑。因此意见领袖由于不是该行业的专家,因此只是向广大群众介绍了相关概念和问题,但其说法并不一定准确。因此要对意见领袖的话保持自己一定的判断。

参考文献

1. 如何成为一位数据科学家——大数据时代的统计学思考, Rachel Schutt, Cathy O'Neil

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容