阅读时间:2017.5.17——2017.5.22
摘要:
第一章:数据
什么是数据
数据、信息、知识的区别
数据的作用,从数据中总结
获取数据——分析数据——建立模型——预测未知
数据相关性
统计学:数理统计《数学之美》
数据量、质
数据模型:
模型选择(简单模型、复杂模型)使用多个简单模型契合
模型参数多少——数据驱动:数据量大,样本代表性
小结:数据是下一次技术革命的核心动力
第二章:大数据和机器智能
变智能问题为数据问题
什么是机器智能
历史上辅助计算的机械
第一台计算机,质变
图灵测试
人工智能1.0
达特茅斯会议(香农)研究领域方向,起始于那次会议之后
机器智能(广义)解决问题,不一定采用和人一样的方法 数据驱动
人工智能(传统)了解人类如何产生智能
统计+数据
IBM
康奈尔大学——弗雷德~贾里尼克语音识别 70%-90%
数据创造奇迹:量变到质变
google翻译 发明人:奥科博士
数据扩展——交叉——结成网——关联性增强——大数据
一些大数据专家对大数据的定义:
量大
多样性
及时性:地图
传统问卷收集的缺陷:成本高、取样、填写未必真实意愿
机器好回答what when where which who,难回答why how
第三章 思维的革命
在无法确定因果关系时,数据提供了解决问题的新方法。数据所包含的信息帮助我们消除不确定性。相关性可以取代因果关系,帮助我们得到想知道的答案,这便是大数据思维的核心。
方法论
欧几里得 几何 基于逻辑推理的公理化系统
托勒密:地心说、球坐标、赤道、经纬线、黄道、弧度制“通过观察获得数学模型的雏形,然后利用数据细化模型” 假设简单元模型——构建复杂模型——与历史数据吻合 缺陷:1、整体模型很复杂;2、确定性假设
笛卡尔:科学的方法论 大胆假设 小心求证
牛顿:思想家 用简单的数学公式破解自然之谜 《自然哲学之数学原理》 力学三定律、万有引力、微积分 《光学》 他告诉人们:世界万物是运动的,这些运动又是可以被认识的。科学时代
任何正确的理论从形式上讲都是简单的 大道至简
牛顿的方法论——机械思维:
1、世界变化的规律是确定的
2、规律可以被认知,可以用公式语言表述
3、规律放之四海而皆准,指导实践
工业革命,机械思维的结果
瓦特
斯蒂芬森 火车
查尔斯 转轮打字机
轧棉机
蒸汽船
爱因斯坦:狭义相对论、广义相对论
青霉素
信息时代:并非所有规律都能用简单的原理描述
难以寻找因果关系
承认不确定性寻找方法
世界不确定性:影响变量多;客观世界本身(测量本身影响了结果)
——概率模型
概率论:香农——将世界的不确定性和信息联系起来,信息论
熵——新的世界观,信息论、不确定性的代名词
信息的度量等于不确定性的多少 不了解——需要大量信息 已经了解——少量信息
用不确定眼光看世界,再用信息消除不确定性
香农第一定律:信息源设计编码。只把最短的编码费分配给最常见的汉字。尽可能节省贵的资源,尽量多地采用便宜的资源
香农第二定律:信息传播速率不可能超过信道的容量
最大熵原理:对未知不要做主管假设
大数据的本质:
智能问题根本上是消除不确定性的问题
交叉熵:数据源的一致性
从因果关系到强相关关系
烟草公司
数据公司google
点击模型70%~80%权重
第四章 大数据与商业
大数据和机器智能 像水和电这样的资源
大麻 用电数据
纳税
怀孕购物
亚马逊 1/3 时效性 个性化
Netflix
google 相关搜索
数据流:
酒吧
prada芯片、试衣间
金风发电机:学习IBM 运营&服务
完备性:
自动驾驶
从历史经验看大数据作用:
技术带动社会变革:蒸汽机、电气、信息革命(服务重要性)
服务重要性:
GE冰箱
小米VS格力
大数据时代,家电厂商,产品跟踪技术,
第三方服务
第五章
大数据和智能革命的技术挑战:
技术拐点
数据暴增
数据的产生:电脑、传感器(RFID芯片)、已存在的非数字化信息(用户产生)、
信息的存储:磁带、硬磁盘、固态存储器、
传输的技术:LTE WIFI 蓝牙
信息的处理:处理器、服务器、并行计算(要求交换机、网络)、云计算
数据收集:看似简单的难题
大数据时代,没有预设目标,数据收集。
大数据以全集作为样本集。google TV
google VOICE
数据存储的压力和数据表示的难题
数据增长速度搞过存储设备发展速度
数据安全
怎样存储信息便于使用
并行计算和实时处理
并行:每个服务器小任务计算量未必均衡 最后一个结束的处理器
实时性:
GOOGLE Dremel 工具 数据列优先 方便多维度数据
数据挖掘:
数据清理:信噪比
机器学习:人工神经网络算法、最大熵模型、逻辑自回归、
期望值最大化
计算复杂度高
2010 googel brain 深度学习工具
几十年前的人工神经网络算法,靠数据量补齐
最好的解决方式,专门做机器学习的公司
数据安全的技术:
数据集中放、多维度数据
业务流程,防止异常操作
挣钱的必要条件
隐私
假货、机票
保护隐私技术:预处理、双向监视
第六章:未来智能化产业
农业:以色列缺水、滴管、
体育:勇士队、
制造业:富士康
机器人 产品很容易个性化定制、参数
特斯拉、从设计到销售全过程的智能化水平
未来的医疗:医疗成本(新药研发、医务人员)
医学影像分析
手术机器人
解决医疗资源短缺问题
李文森 抗癌难点:1、不存在万灵药基因、2、癌细胞复制也会出错、
定制抗癌药
衰老基因 Calico 人类长寿公司
未来律师业:案例分析,降低诉讼成本
未来的记者和编辑:
小结:需求没有变,新技术新产业取代旧产业满足人类的需求
第七章:智能革命和未来社会:
在历次技术革命中,人、企业、国家可以选择的道路:加入浪潮成为2%,或者观望徘徊被淘汰
智能化社会:
智能交通。
反恐
精细化社会:
追踪每一次交易
比特币 区块链
从标准化到个性化的服务:
就医、
无隐私的社会:
隐私 保险公司
苹果 FBI
机器人抢掉人的饭碗
工业革命:1800-2000 1000美元——20000美元 改革开放
新技术出现初期,受益者很少,只有那些掌握或使用新技术、从事新行业的人
工业革命三阶段:第一阶段发明家收益 民众没有 第二阶段全体英国民众受益,世界没有 第三阶段 世界范围内受益
从第二次工业革命到镀金时代:美国、德国。大部分地区享受成果,是在二战之后。
依然没有消化完的信息革命:
1967-2012 最富有的5%财富增长,其他人的财富变化很小
中国特殊,工业革命和信息革命一起完成
解决问题只有靠时间:耗
智能革命的冲击:
趋势一旦形成,不可阻挡。对人类社会带来冲击。甚至超出前几次技术革命。
首先:信息革命影响还没消化完
其次,没有空白市场开拓
最后,智能革命要替代的是人类最值得自豪的部分,大脑
农民——工人——服务业
受益于苹果或google的公司,远比20世纪50年代普通汽车厂装配工人的数量少的多
淘汰的劳动力怎么办?
社会公平只能反馈在机会公平上,不是结果的公平
不满情绪的根源?
不能简单归结为贫富悬殊或宗教纷争
根源在于:很多人被社会抛弃了
面对现实
争当2%
茶叶
冰箱购物
心理上和观念上的距离,比技术上和商业上的要远得多
小结:长远看会使社会更好,最初收益的都是发展使用它的人2%,拒绝他的人迷茫的一代