第一章 数据——人类建造文明的基石。
如果把资本和机械动能,作为大航海时代以来全球化的推动力,那么数据正成为下一次技术革命和社会革命的核心动力
数据的最大作用在于承载信息,但并非所有的数据都承载有意义的信息。信息有时藏在事物的背后,需要挖掘和测量才能得到。数据是信息的载体,从数据中挖掘信息
数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才才能将它们挖掘出来。对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。
得到数据和使用数据的能力是衡量文明发展水平的标准之一
使用数据的标准流程:
获取数据 --> 分析数据 --> 建立模型 --> 预测未知
数据的作用自古有之,但是过去数据的作用经常被忽视。首先,由于过去数据量不足,积累大量的数据所需的时间太长,以至于在较短的时间内,它的作用不明显。其实数据和想获得的信息之间的联系通常是间接的,他要通过不同数据之间的相关性才能体现出来。可以说相关性是让数据发挥作用的魔棒。
很多时候我们无法直接获得信息,但是我们可以将相关联信息进行量化,然后通过数学模型间接的得到所要的信息,而各种数学模型的基础都离不开概率论和统计学
切比雪夫不等式:当样本数足够多时一个随机变量和他的数学期望值之间的误差,可以任意小
模型的选择不是一件容易的事,通常简单的模型未必与真实情况相匹配.
日心说地心说如果一开始模型选的不好,以后修修补补就很困难,因此,在过去无论在理论上还是工程上,大家都把主要的精力放在寻找模型上
有了模型之后,第二步就找到模型的参数,以便让模型至少和以前观察的数据相吻合,这一点在过去的被重视程度远远不如寻找模型。但是今天他又有一个比较时髦而高深的词——机器学习。
鉴于完美模型未必存在,即使存在,找到他也非常不容易,而且费时间,因此就有人考虑能否通过很多简单不完美的模型凑在一起起到完美模型的效果呢?
这个答案是肯定的,从理论上讲,只要找到足够多的具有代表性的样本,就可以利用数学找到一个模型或一组模型的组合,使得它和真实情况非常接近。
数据驱动方法的最大优势在于它可以最大程度上得益于计算机技术的进步,尽管数据驱动方法一开始数据量不足,计算能力不够。随着时间推移,摩尔定律保证了计算能力和数据量,以一个指数级增长的速度递增。数据驱动方法可以变得非常正确。相比之下,很多其他方法的改进需要靠理论的突破,因此改进起来周期非常长。
本章小结
数据驱动方法是大数据的基础,智能革命的核心,它带来了一种新的思维方式。
第二章 大数据和机器智能
在有大数据之前计算机并不擅长解决人类智能的问题,但是今天这个问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新一轮的技术革命-智能革命
开普勒从他老师手上接过大量的天文数据,找到了精确描述行星围绕太阳运动轨迹的模型--椭圆模型
传统的人工智能方法,简单地讲就是首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。今天,几乎所有的科学家都不坚持,机器要像人一样思考,才能获得智能。但是很多门外汉,在谈到人工智能时,依然想象着机器在向人类那样思考,这让他们既兴奋又担心。
鸟飞派
在人类的发明历史上,很多领域早期的尝试都是模仿人或者动物的行为,比如人类在几千年之前就梦想着飞行,于是就模仿鸟将鸟羽毛做成翅膀,绑在人的胳膊上往下跳。事实上飞机的发明靠的是空气动力学,而不是仿生学。
互联网兴起之后,数据的获取变得非常容易。
从1994年到2004年的十年里语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍。这其中20%的左右的贡献来自于方法的改进,80%才来自于数据量的提升。虽然每一年计算机在解决智能问题上的进度幅度并不大,但是十几年量的积累,最终促成了质变
大数据最明显的特征是体量大
一些数据,专家讲大数据的特征概括成三个v,既大量,多样性,及时性。这种方法虽然方便记忆,但并不全面精确。及时性,并非所有大数据必须的特征。多样性含义上有歧义,其中最重要的含义是多维度
传统方法问卷调查未必反映被调查人真实的想法,百度知道上的提问和回答没有压力,也没有功利目的,说出了真实的想法。
大数据第三个重要特征也是人们经常忽视的,就是它的全面性完备性
大数据是一种思维方式的改变大数据之前,计算机并不擅长解决智能问题。但是今天换思路就可以解决,其核心就是变智能问题为数据问题。由此,全世界开始了新一轮的技术革命--智能革命。
深蓝
深蓝其实是大量的数据,并不复杂的算法和超强计算能力的结合,深蓝从来没有也不需要像人一样思考。
虽然在评估自己和对方的胜率是可以根据历史的数据考虑对手可能采用的做法。对不同的状态给出可能性的评估,然后根据对方下一步走法对盘面的影响,核实这些可能性的估计,找到一个最有利于自己的状态。并走出这步棋。
深蓝其实把一个机器智能的问题变成了一个大数据的问题和大量计算的问题。阿发狗在具体算法上和深蓝略有差异,但他们博弈的原理是相同的。
我们对大数据重要性的认识不应该停留在统计改进产品和销售上或者决策支持上,而应该看到它导致了机器智能产生。机器一旦产生和人类相似的智能,就将对人类社会产生重大影响。决定今后20年经济发展的是大数据和由之而来的智能革命。
第三章 思维的革命
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心
欧洲之所以能够在科学上领先于世界其他地方,在很大程度上是依靠从古希腊建立起来的思辨的思想和逻辑推理的能力,依靠他们可以从实践中总结出最基本的公理,然后通过因果逻辑构建起整个科学的大厦。最有代表性的是欧几里得几何学。
瓦特改进了蒸汽机,或者说把瓦特发明了一种万用蒸汽机。
后人这样评价牛顿和瓦特这两位英国的杰出人物:
牛顿找到了开启工业革命大门的钥匙,而瓦特特拿着这把钥匙开启了工业革命的大门。
机械设备更广泛的影响力是作为一种准则指导人民的行为,其核心思想可以概括成确定性和因果关系。
牛顿的物理学理论是建立在确定性基础上,既所谓的绝对时空。
爱因斯坦的研究方式是对是的,他的理论也是建立在一种确定性-光速恒定的基础之上,利用逻辑推理就可以推导出整个狭义相对论。
爱因斯坦自己说如果不是他也会有人在很短的时间内发现狭义相对论,因为狭义相对论就是光速恒定的必然结果。爱因斯坦的相对论在形式上和牛顿力学有相似之处,简单而美妙,几个公式就把整个理论描述清楚了。
牛顿被苹果砸了一下的说法是伏尔泰杜撰出来的,并不靠谱。
爱因斯坦从白日梦中获得另类想法搞清楚了广义相对论却是一件真实的事情
爱因斯坦在瑞士专利局无所事事,坐在窗前看见外面明媚的阳光,想着有人在窗外坐着椅子从天上加速而下的怪事,从此想清楚了重力和加速度的联系,发现了广义相对论。
这个例子说明人类找到真正的因果关系是一件很难的事情,运气的成分很大,因此机械思维在认识世界时还是有很多的局限性
机械思维的局限性更多来源于他否认不确定性和不可知性。爱因斯坦有句名言--上帝不掷色子。这是他在和量子力学的发明人波尔等人争论时的讲话。
信息论
在概率的基础上香农博士建立起一套完整的理论,将世界的不确定性和信息联系起来,这就是信息论。信息论不仅是通信的理论,也给了人们一种看待世界和处理问题的新思路。
香农著名的论文:《通信的数学原理》,提出信息熵的概念,解决了信息的度量问题。同时香农还把信息和世界的不确定性或者是无序状态联系到一起。
信息论的作用远不止在科学和工程上,它也是一种全新的方法论
信息论建立在不确定性基础上,想要消除这种不确定性就要引入信息。
谁掌握了信息,谁就能获得财富,就如同在工业时代,谁掌握了资本就能获得财富。
用不确定相关这种眼光看待世界,在用信息消除不确定性。不仅能够赚钱,而且能够把很多智能问题转化为数据处理的问题,具体说就是利用信息来消除不确定性的问题。
任何基于概率统计的模型都会有很多小概率事件覆盖不到,这在过去被认为数据驱动方法的死穴,很多学科把这种现象称为黑天鹅效应。
黑天鹅隐喻那些极为罕见,预期之外的事件他们在发现之前没有前例可以证明,但一旦发生,就会产生极端的影响
大数据的完备性,可以解决这个问题。
大数据的科学基础是信息论,本质是利用信息消除不确定性。大数据时代,量变带来质变,采用信息论的思维方式,可以让过去很多难题迎刃而解
通过关联关系,可以反向查找因果关系。先有结果,再反推原因
能通过因果关系找到答案,根据因果关系知道原因固然好,但对于复杂问题,其难度非常大,除了物质条件,人们的努力还要靠运气。
在大数据时代,我们能够得益于一种新的思维方法--从大量的数据中找到答案,即使不知道原因。如果我们愿意接受,那么我们的思维方式已经跳出了机械时代单纯追求因果关系的做法,开始具有大数据思维了。
搜索引擎,如果相信用户点击的结果,其实就是用相关性取代因果关系,这里面有两个风险。
首先,用户点击容易形成马太效应排在前面的结果技术不相关,也容易获得更多点击。
其次,那种依靠点击搜索的结果容易被一些使用者操纵。比较稳妥的做法是对用户的点击数据建立一个简单的模型,作为搜索排序算法的一部分,这个模型通常称为点击模型。
很多时候落后和先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后
今天面临的复杂情况,已经不是机器时代用几个定律就能讲清楚的了,不确定性,或者说难以找到确定性,是今天社会的常态。
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这边是大数据思维的核心。大数据思维和原有机械思维并非完全对立,他更多的是对后者的补充,在新的时代一定需要新的方法论,也一定会产生新的方法
第四章 大数据与商业
在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用
一项技术带动整个社会变革的事情也曾经发生过。它们通常遵循一个模式:
新技术+原有产业=新产业
安迪-比尔定律: 比尔(比尔盖茨)要拿走安迪(安迪格罗夫,intel ceo)所给的。计算机领域软件功能的增加和改进要不断的吃掉硬件性能的提升。
以微软为代表的软件开发商吃掉硬件性能,迫使用户更新机器,让惠普戴尔等公司受益,而这些批厂商再向英特尔订购芯片,在这个过程中,各家的利润先后得到提升。硬件公司在将利润投入研发,按照摩尔定律的速度提升硬件性能,为微软下一步更新软件吃掉硬件性能做准备。
每次技术革命都会诞生新的思维方式和商业模式,企业只有在思维上跟上新的时代,才能在未来的商业中立于不败之地
第五章 大数据和智能革命的技术挑战
大数据的数据量大,维度多,数据完备的特点使得他从收集开始到存储处理再到应用,都与过去的数据方法有很大的不同。因此,使用好大数据也需要在技术和工程上采用与过去不同的方法。
科学技术的发展并非是匀速的,重大的科技突破常常需要酝酿很长时间。在这段时间内技术进步是一个缓慢的量的积累。有人称为相对停顿的状态。当积累的量达到一定程度之后,科技在短期内获得单点突破。然后新科技全面迸发,这便是拐点。我们今天可能正处在机器智能就要超过人类的拐点。
计算机处理器的速度符合摩尔定律,单一处理器性能的提升,依然无法应对增长更快的数据量。不仅因为数据量太大,单机处理不了,而是因为数据量提高一万倍时,计算量通常不是线性增加的,大部分情况下它会增长几十万倍,乃至上亿倍
大数据具有多维度的特点,有时并行化是非常困难
大数据时代收集数据没有预先设定目标,而是收集数据之后经过分析能够得到什么结论就是什么结论,正是由于收集是没有前提和假设,大数据分析才能给我们带来很多意想不到的惊喜,这才让大家觉得计算机变得更聪明
苹果微软谷歌等公司为了挖掘每一个家庭的消费潜力,想尽办法千方百计掌握每一个家庭客厅的数据。有的通过游戏机或者机顶盒的设备不经意之间收集用户数据
收集数据时非常忌讳“大胆假设,小心求证”的思维方式。如果事先有了定论,再找数据来证实它,总能找到有力的证据,但很可能与真实情况相差巨大
数据量增长的速度高过存储设备的发展速度,越往后他们之间差距越大。
大数据面临的另一个技术难题就是如何标准化数据格式,以便共享。
大数据在今天这个时间点爆发,是各种技术条件具备的结果。要让大数据真正发挥巨大作用,还有很多技术挑战需要应对。
第六章 未来智能化产业
未来的农业制造业体育医疗律师甚至编辑记者都将迎来崭新形态,新产业将取代旧产业,满足人的个性化需求,大数据将导致我们整个社会的升级和变迁。
大数据将导致我们社会的产业升级和变迁,不过,如果对比每一次产业革命前后产业的变化就会发现人类的基本需求并没有变。只是采用了新技术后新产业会取代旧产业,满足人的需求。在技术革命时,固守旧产业是没有出路的。
机器智能带来一个终极问题,事情都交给机器来做,而且比人做得更好,那人类怎么办?
第七章 智能革命和未来社会
在历次技术革命中,一个人一个国家,可以选择的道路只有两条,要么加入浪潮成为前2%的人,要么观望徘徊被淘汰
"这是最好的时代,也是最坏的时代"--英国文豪狄更斯的名著双城记开篇的一句话
工业革命对社会的影响分成三个阶段:
- 第一阶段只有发明家和工厂主受益。
- 第二阶段是全体英国民众受益。
- 第三阶段才使整个世界受益。
第二次工业革命,上述的模式重复出现。
每一次重大的技术革命,都需要很长的时间来消除它的负面影响。因为技术革命会使得很多产业消失,或者产业从业人口大量减少,释放出来老动力需要寻找出路。这个时间至少要一代人以上,被淘汰的产业的从业人员能够进入新行业中的其实非常少。各国政府试图帮助从业人员掌握新技能,但收效甚微。因为上一代人很难适应下一代技术发展。事实上消化这些劳动力主要靠的是等待他们逐渐退出劳务市场,而并非他们真正有了新的出路,能够像以前一样称心如意的工作。这就是技术革命,都需要花半个世纪的消除它带来的动荡的原因。有些国家将无所事事的人强制塞到公司里,比如日本和欧盟。有些国家不可以淘汰过剩产能,比如中国。但解决问题的途径都是一个“耗字”,耗上两代,社会问题就解决了。
大数据和机器智能的趋势一旦形成,就不是人力可以阻挡的。有识之士,包括霍金盖茨,担心机器智能将对人类社会造成方方面面的冲击,呼吁有节制的发展机器智能,但智能革命的速度不会因此而放慢。从目前的发展来看,智能革命对社会的冲击,甚至有可能超过过去几次技术革命。
我们可以从三个角度分析其中的原因。
- 首先,信息革命本身带来的影响还没有消化完。
- 其次,今天的世界和200年前不同,消化技术革命的影响要比工业革命时难的多。由于全球化,全世界已经没有空白的市场可以开拓了。
- 最后,也是最重要的一点,智能革命要替代的是人类最值得自豪的部分--大脑。
2010年,美国爆发了所谓的占领华尔街运动,一大群无业游民,低收入者聚集到纽约街头,占领华尔街运动引起美国社会的反思。这些低收入者出路在哪里,通过福利和救济将它们养起来,显然是不够的,因为那些人的人生前景依然是灰暗的,特朗普替这些人说出了希望-体面的工作。这些不满情绪的根源在哪里不能简单地归结为贫富悬殊或者宗教纷争。其根源在于,很多人对社会进步所抛弃了。随着技术革命的发展,并非每一个人的发展机会都是越来越多的,反而可能会越来越少。是否有良好的解决办法呢?坦率地讲,谁也没有。我们要在观念上接受一个事实,越来越多的事情,人类将做不过机器。我们今后的决定,应该根据这个前提来做,只有面对现实,才能最终建设一个让所有积极向上的人都具有成就感和幸福感的社会。
虽然我们不知道如何在长期内创造出消化几十亿劳动力的产业,但是我们很清楚如何让自己在智能革命中受益,而不是被抛弃。这个答案很简单,就是争当2%的人,而不是自豪地宣称自己是98%的人。在历次技术革命中,一个人一家企业甚至一个国家可以选择的道路只有两条,要么进入前2%的行列,要么被淘汰。当下怎么才能成为这2%,就是踏上智能革命的浪潮。
未来依然是人的时代,我们不会被机器控制,机器在完成任务时甚至不知道自己在做什么。谷歌的alphago,其实并不知道自己是在下棋。但是制造智能机器的人就不同了,他们可能只占人口的不到2%,甚至更少,却在某种程度上控制着世界
看是免费的,东西才是最贵的,因为我们获得服务的同时交出了自己的自由,而只有我们失去自由利益受到损失时才会体会到自由的可贵。
控制着我们的不到2%的人口并没有做坏事,到目前为止,他们对我们的帮助你带来的危害要大得多。
怎样加入2%的行列,并不是每个人都要去人工智能公司工作,而是希望大家接受一个新的思维方式,利用好大数据和机器智能。前几次重大技术革命首先受益的是和那些产业相关的人,善于利用新技术的人。虽然并非每一个人都能够去开发大数据和机器智能产品,但是应用这些技术要不是像想象中的那么难。
在每一个重大的技术革命开始的时候,真正勇敢地投身到技术革命打仗长驻那里毕竟是少数,受益者更少,大部分人则会犹豫和观望。在智能革命到来之际,每一个人也有两个选择,要么加入这次浪潮,要么观望徘徊,最后被淘汰。大多数人的观望徘徊,给了2%的人机会,使得愿意吃螃蟹的人在奋斗路上少了很多竞争对手。马斯克和盖茨一方面对机器智能的发展非常担心,另一方面却选择加入到机器智能的大讨论。
大数据导致机器革命的到来,对未来社会的影响是全方面的,尽管总体上这些影响是正面的。从长远看,我们未来的社会会变得更好,不过和以往的技术革命一样,智能革命也会带来很多负面的影响,特别是在它发展的初期,这些影响可能会持续很久。
任何一次技术革命,最初的受益的都是发展到使用它的人要远离他,拒绝接受它的人在很长的时间里都是迷茫的一代。作为人和企业,无疑应该拥抱它,成为2%的受益者。作为国家需要未雨绸缪,争取不要像过去那样每一次重大的技术革命都伴随半个世纪的动荡。
我们还没有经历过机器在智能上全面超越人类的时代,我们需要在这样的环境里学会生存。这将是一个令我们振奋的时代,也是一个给我们带来空前挑战的时代。
其他
学术休假
在美国的大学里教授每7到10年左右的时间可以带全薪休假半年或者带半薪休假一年。大部分教师会选择到一个合作单位做一些科研,以拓宽自己的视野,另一些教授则选择找一个地方去写书。
无罪推定原则
被告的一方在法庭上先被假定为无罪,除非有足够的证据证明其有罪
大陆法系 VS 英美法系
实行大陆法系的国家,包括除了英美(及英联邦,加拿大等)之外的几乎所有国家。在这些国家立法永远是远远滞后于案件发生。
英美法系,又称普通法系,海洋法系。
英美法系在司法审判原则上更「遵循先例」,即作为判例的先例对其后的案件具有法律约束力,成为日后法官审判的基本原则。