大数据的威力
之前说数学模型的重要性时提到开普勒的成功离不开第谷大量的天文观测数据,但在很长一段时间内,人们低估了数据的重要性,认为只有提出一种新模型或新的有效算法才是重大贡献。而在十年前获取、处理数据是重复枯燥的计算,没什么成就感,即使通过数据做出一些研究成果,也很难发表论文,因此学术界很多人重方法而轻数据。
但随着互联网发展(云计算兴起和普及),计算机获取、存储和处理数据的能力猛增,可以从大量数据中发现之前难以发现的规律性,于是很多科研工程领域(语音识别、自然语言处理、机器翻译等计算机领域和生物制药、医疗、公共卫生等与信息技术间接相关的领域)都取得了重大进步,很多人认识到数据的重要性,提出了新的概念——大数据。本章介绍数据的重要性和大数据带来或即将带来的奇迹。
1 数据的重要性
数据不止是一些数字(如实验数据、统计数据),也不止是信息和情报(如数据库,符合一定格式的信息的汇总),它可以包括任何形式的信息,如互联网内容、档案资料、设计图纸、病例等,也称为广义的数据。
从某种意义上说,人类通过对数据进行收集、处理和总结实现文明和进步。远古传说伏羲发明八卦推演吉凶,说明当时人们已经懂得根据不同条件(输入数据)把未来的吉凶归纳成8或64种可能(输出数据),人们相信这样的预测,是因为他们认为过去发生的事情证明了(数据)证明了这种归纳分类的正确性,比如出征天气不好,打仗可能不顺利,通过一代代人的总结把天气(天时)和征战结果相联系,再通过卦象进行抽象描述。农耕时代的生活经验如播种、收获时间也是从“数据”中总结的。同时在西方,《圣经》说七个丰年后接着七个饥年也是根据“数据”对气候进行的粗糙统计。
文艺复兴后,近代科学开始萌芽发展,科学家做实验的目的就是采集数据,通过数据推导或证实新发现。很多著名科学家(如伽利略、第谷、居里夫妇)一生都在做实验采集数据。与伽利略同时代的李时珍编写了《本草纲目》,本质是对药物数据的归纳整理。不过在互联网普及前,全球的数据量都不是很大,这可能是人们忽视数据重要性的主要原因之一。
数据也渗透到生活的方方面面,谷歌产品经理遵循一个规则:没有数据前不要下结论,因为很多日常感觉跟数据给出的结论相反。一是容易偏离基本事实:猜世界上人口最多的10个城市,很多人会猜上海、北京、孟买等人口大国的大城市,或者东京、纽约、巴黎等世界名城,实际上并非如此,还有好几个很难联想到的城市(如雅加达、首尔、马尼拉、卡拉奇)。
二是估计未知事件的偏差大:在中国互联网门户网站(新浪、腾讯、搜狐、网易等)投放3×5cm的游戏广告,每个点击要花游戏公司多少钱?有些人可能猜10元-50元,实际在1000元以上(点击率太低,不到万分之一,很多时候还是误点),因此这样打广告等于白打。
三是没看到数据时人们总是倾向于高估自己或夸大正面效果,而忽视负面影响(强化幸存者效应)。统计表明95%的个人投资者跑不赢大盘,50-70%的短线交易者在亏钱,尽管如此,多数人炒股的原因是看到有人挣钱了,说明没有数据支持的决策常常不准确,而且人们只记得个别成功案例,低估了失败概率,也说明了个例与大量数据的差别。另外,几乎人人相信职业投资人管理的基金能带来比大盘更好的回报,但事实上70%(甚至90%)的基金表现长期不如大盘,这说明我们的想象和现实有很大差距,在没有获得数据前,难以做出正确判断。【既然个人或基金表现都不如大盘,那钱去哪了呢?首先交易费和各种税占掉了收益大头,还有基金经理管理费,每年2%的管理费经过30-40年约占利润的一半。股市在某种程度上是零和游戏,证监会官员、交易所雇员的工资和交易所的办公条件都是散户的钱。因此经济学家William E.Sharpe和Burton G.Malkiel根据数据,倡导的投资决策是买指数基金。】
综上所述,数据在科研和生活中都很重要,应该成为我们日常做决策的依据。