数学之美(三十二++)

3 为什么需要大数据

大数据不仅数据量大,而且有多维性和完备性,这两点将原本看似无关的事件相联,恢复出对事物全方位完整的描述。

2003年9月,百度发布了《中国十大“吃货”省市排行榜》,它没有做民调和各地饮食习惯研究,而是从“百度知道”的7700万条与吃有关的问题里挖掘出一些结论,看上去比学术研究更能反应各地饮食习惯。

在关于“××能吃吗?”的问题中,宁夏网友最关心“螃蟹能吃吗?”内蒙古、新疆和西藏的人最关心“蘑菇能吃吗?”浙江、广东、福建、四川等地网友问得最多的是“××虫能吃吗?”而江苏以及上海、北京等地则最爱问“××的皮能不能吃?”这其实是大数据的一个典型应用,有以下特点:1、数据本身很大,7700万个问题和回答;2、维度多,涉及食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间,这些维度不是明确给出的(和传统数据库不同),但这些看似杂乱的数据将原来看似无关的维度(时间、地域、食品等)联系在一起,经过对这些数据的挖掘、加工、整理得到了有意义的统计规律,比如不同地域的饮食习惯。

百度还可以从这些数据中得到更多有价值的统计结果,比如不同年龄、不同性别和文化背景的人的饮食习惯(假设百度知道用户的注册信息是可靠的,或者可以通过其它方式获取可靠的年龄信息);不同生活习惯的人的饮食习惯(比如正常作息、夜猫子、经常出差、不爱运动的人等等),如果数据收集的时间跨度足够长,还可以看到不同地区饮食习惯的变化,特别是在不同经济发展阶段饮食习惯的变化。

这些问题如果没有大数据很难获取真实信息。按传统的统计方法,首先要设计一份合理问卷,然后从不同地区寻找具有代表性的人群进行调查,最后半人工地处理和整理数据。这样不仅成本高,而且跟盖洛普民调一样,很难在采样时将各种因素考虑周全,如果后来统计时发现缺少因素,要在调查问卷中补充一项,补缺的成本几乎要翻番。此外填写问卷未必能反映被调查人的真实想法,大家在百度知道上提问和回答是随心所欲的,但填问卷时为了显得合群,不太会表明自己喜欢吃臭豆腐或者虫子。再比如CCTV调查收视率时发现,用户填写收视卡片得出的收视率和自动收视统计盒子得到的结果完全不同,在收视卡片的统计结果中,大牌主持人和高品位节目的收视率被明显夸大,因为用户会填写显得自己有面子的节目。类似地,从社交网络数据得到的对奥巴马医疗改革的支持率(约24%)比盖洛普结果(41%)低很多。

大数据的优势不仅在于成本和准确性,更在于多维度(全方位)。过去计算机能存储和处理的数据有限,因此只收集与待解决问题相关的数据(维度少,省略了看似无关的维度),这种限制决定了数据使用方式是先有假设和结论,再用数据验证。现在云计算允许计算机存储和处理大量关系复杂甚至看似没用的数据,工作方法也随之改变,除了使用数据验证已有结论,还可以不带任何想法,看数据本身能够给出什么新结论。这样一来能发现很多新规律,比如百度百科中的数据看似杂乱无章,其实有很多内在联系。对这些大数据进行分析前,产品经理并没有预先假设结论,而是通过分析发现新的规律。

大数据对医疗保健非常重要。很多疾病和基因缺陷相关,但基因作用的原理复杂,一个基因缺陷可能会导致某种疾病,但只表示存在可能性。要搞清楚基因和疾病的联系,医学界有两种研究方法,较传统的方法是通过实验搞清楚某一段基因的机理(很漫长,通常从果蝇基因开始研究),以及该基因缺陷可能造成的生理变化,再搞清楚这种变化是否会导致疾病,或什么情况下诱发疾病。比如某段基因和胰岛素合成有关,基因缺陷可能引起糖代谢障碍,继而在一定条件下可能引起糖尿病,最后得出结论“如果某段基因上有缺陷,可能会导致糖尿病”,至于可能性有多大,没人知道,而且通过这种方法找到基因和疾病之间的因果关系更是难上加难,既费时又费钱还不好使。全世界科学家研究了几十年都没明确吸烟和许多疾病的因果关系,使大烟草公司在1990s末之前逃避法律惩罚。

另一种方法是利用数据进行统计,从数据出发找到基因缺陷和疾病的相关性,再反过来分析造成相关性的内在原因。比如寻找某段基因缺陷和糖尿病的关系,可以根据条件概率计算这段基因缺陷造成糖尿病的可能性:假定事件A={某段基因有缺陷},事件B={得糖尿病},条件概率P(B|A)=P(AB)/P(A)≈#(AB)/#(A),其中#()表示样本数。

在没有大数据时这个方法并不容易。首先,在统计#(AB)时,能够将一个基因缺陷与糖尿病联系起来的案例并不多(用统计术语来说就是数据太稀疏了)。在美国有上千个糖尿病病例的医院不多,其中可能只有5%的患者提取基因数据存在医院数据库中,这些人里可能有一半人的病因与基因缺陷无关,剩下来的几十个样本无法支撑可靠的统计规律。其次,分母#(A)的数据可能根本得不到,因为无法准确得知多少人有这种基因缺陷。1990s末美国司法部为了和烟草公司打官司,专门派专家来中国收集数据,因为美国能找到的烟民数据还不够统计需要。

研究基因缺陷和疾病联系的另一个难点在于如何找到可能有缺陷的基因。据华大基因创始人杨焕明院士介绍,一个人完整的基因数据相当大,数据量在PB(10^15字节,即100万GB)数量级,已经超过百度知道的数据量了。而且只看一个人的基因无法判断一段基因是否有缺陷,即使多找几十个人也不够,因为个体之间的基因有差异,不能说基因不同就是缺陷。要定位可能的缺陷,需要成千上万人的基因数据,在云计算出现前很难处理这么多数据。

收集大量基因数据也不容易,美国公司23andMe收费100美元(医院做一次全面的DNA检测需要2000-5000美元)用于收集分析唾液,然后告诉客户今后得各种病的概率,虽然跟华大基因绘制整个基因图谱不是一回事,但100美元也不够做比较简单的基因分析。实际上它是低价收集基因,有了大量基因就能区分哪些基因片段是正常的,哪些存在缺陷,对每个基因提供者,它能列出这个人可能的缺陷基因。他们也能得到每种基因缺陷的概率,即P(A)。

23andMe和同类公司(如谷歌的保健研究部门)同时将基因缺陷和疾病相联系,这个数据必须到医院和研究机构去拿,每个医院的数据有限,但把成千上万个医院的数据收集起来,就能估计疾病和基因缺陷同时出现的概率P(AB),进而算出某种基因缺陷导致疾病的概率。未来大数据可以通过基因检测的方法推测人们今后的健康情况,以有效预防疾病。

医疗保健行业是美国最大的行业,2013年产值占美国GDP的15%(成本不下降的话未来将提高到20%)。虽然过去医生也在跟数据打交道(各种化验结果和指标),但利用IT技术改进医疗水平的动力不足(除了医学影像等技术),不过近10年来医疗行业主动接触IT,希望通过大数据解决医疗保健上的难题,目前为止大数据已经给医疗行业带来不少惊喜,2012年媒体报道了两则大数据在医疗上的应用:1、一位女高中生通过大数据提高乳腺癌活检位置的准确性。活检就是在可疑部位通过一种特殊的针穿刺取出一些细胞,化验看是否有癌细胞,如果穿刺部位不准确就取不到癌细胞,过去准确性取决于医生经验,但医生可能一辈子也就见过几百个病例,很难积累经验,即使经验丰富也很难表现稳定(医生的情绪波动影响判断准确性)。这位高中生统计了上百万份病例,写了个程序,在X光片和CT图像圈出可疑部位,准确率高达98%,比靠经验准确很多。她使用的几百万份病例在信息处理从业者看来不算多,但对医疗行业已经算很大的数据了,这个成果获得当年谷歌科技竞赛第一名;2、保险公司发现很多急诊病人出院后不久又进了急诊室,美国急诊费用很高,对保险公司和个人都是不小的负担,于是保险公司和医院收集大量病人信息,交给微软大数据分析,微软的工作人员用机器学习的方法抽取和分析了上万种特征,发现如果一个病人首次急诊时打点滴(在美国除非特别必要,很少打点滴),几周后再次进急诊室的可能性极大(病情严重),此外还有一些重要特征,对于具有这些特征的患者,需要在出院后定期跟踪、关注以减少返回急诊室的几率,从而降低医疗费用。要训练具有上万个特征的数据模型离不开多维度的大数据。

很多大学和实验室在利用大数据进行医疗研究,其中一项有意义的研究是“对症下药”,斯坦福的计算生物学研究中心在利用大数据对几千种药和几千种病症进行配对研究,他们发现治疗心脏病的药物对某些人的胃病很有疗效。通过研究他们发现了很多疾病的新疗法,比研制新药的成本低、周期短。

大数据还使人类有望攻克癌症。2013年谷歌创立了Calico公司,致力于用IT成果解决医疗问题,聘请了最知名的生物制药专家、原基因泰克公司的CEO李文森(Arthur D.Levison)主持工作,他们认为未来世界数据为王,很多难题(如治愈癌症、防止衰老)不能靠传统医学手段解决,需要使用大数据相关技术。

李文森认为今天人类无法治愈癌症有两个原因:一、一种药物是否有效与基因密切相关,不同基因要使用不同药物,采用过去研制新药的传统做法,为特定患者研制抗癌新药的成本是10亿美元,不可能普及;2、癌细胞基因本身在不断变化,经常有患者一开始用抗癌药效果很好,后来癌细胞基因发生变化,之前的药物不起作用了,于是癌症复发。也就是说,即使能为每个人研制特定抗癌药,研制速度也赶不上癌细胞变化速度。李文森认为必须依靠大数据对人类共性进行统计,这样许多研制新药的实验不必重复进行了,而且在进行临床试验前只需进行少量动物实验。他认为定制药物的成本能控制在每人5000美元以内,同时由于大部分工作可以共享,可以减短药物的改造周期,使药物研制速度快于癌细胞变化速度,从而有望治愈癌症。目前他的团队利用谷歌平台整合全美医疗资源,试图解决癌症问题。

大数据对信息产业和其它领域均有重大影响,首先,只有当一些随机事件的组合同时出现多次后,才能得到有意义的统计规律;其次,大数据采集过程是自然过程,有利于消除主观性偏差;此外,多维度大数据能使看似无关的事件反复出现,从而发现新规律;最后,它是解决IT行业之外一些难题(如医疗)的钥匙。

小结

虽然人们早已意识到数据的重要性,但因为存储和计算条件的限制未能深入挖掘,随着信息技术的发展,解决了数据的存储和计算问题,人们发现超大量数据能带来惊喜,导致了大数据的兴起。

未来人们的生活更离不开数据,会出现很多围绕数据收集和处理的工作机会,懂得数据重要性和善用数据的人更容易成功。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,427评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,551评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,747评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,939评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,955评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,737评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,448评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,352评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,834评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,992评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,133评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,815评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,477评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,022评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,147评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,398评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,077评论 2 355

推荐阅读更多精彩内容