数据
现象 -> 数据 -> 信息 -> 知识
通过数据建立模型,有2个问题:
- 采用什么样的模型:完美的模型未必存在,取而代之的方法是用很多简单的模型的组合(如多圆嵌套的地心说模型)
- 模型的参数:机器学习
数据驱动方法:先有大量数据,而不是预设的模型,然后用很多简单的模型去契合数据(fit data),用计算量和数据量换取研究的时间
大数据与机器智能
有了大数据后,将智能问题转换成数据问题,进而交由计算机解决。
大数据的特征:
- 数据量大
- 多维度(百度知道,饮食习惯的问题)
- 完备性
大数据的重要性在于,它导致了机器智能的产生。
机器智能=通过任意一项图灵测试:
- 翻译
- 象棋
- 语音识别
思维革命
机械思维:
- 世界变化的规律是确定的
- 规律不仅可以被认识,而且可以用简单的公式或语言来描述
- 这些规律是放之四海皆准的,可以放到各种未知领域指导实践
核心思想是确定性和因果关系
从欧几里得到托勒密,再到牛顿,该思维取得了巨大的成功,并带来工业文明
熵
热力学熵:封闭系统中,熵永远向不断增加的方向发张。系统达到恒温后,熵最大,此时也将无法对外做功。从微观上看,这个系统越来越无序。
信息学熵:信息量的度量就等于不确定性的大小。要消除这种不确定性,就要引入信息。
香农第一定律:对一个信源,它的信息编码的平均长度,一定大于信息的熵
香农第二定律:信息传播速率不可能超过信道的容量
最大熵原理:在给未知事件寻找概率模型时,应当满足已经有的数据,不要对未知情况做任何假设
大数据本质:信息论
- 数据量大:信息消除不确定性
- 多维度:交叉熵
- 完备性:避免“黑天鹅”
从因果关系到强相关关系
技术挑战
技术拐点:
问题 | 方式 | 难点 | 方案 |
---|---|---|---|
信息的收集 | 各类传感器,摄像头,移动设备 | 数据隔离,隐私问题 | 绕一大圈 |
信息存储 | SSD | 数据量过大 | 去除数据冗余,数据安全 |
信息传输 | 4G | 多维度 | protocol buffer |
信息处理 | 分布式,流式处理 | mapredue, hadoop |
数据挖掘:降噪,机器学习(人工神经网络,最大熵模型等)。那么随着数据量变大,机器学习的实现将成为一个工程上的难题。需要把算法搬到成千上万台机器上实现。
隐私问题:
- 数据收集时预处理
- 数据采集和使用都需要双向知情(把偷窥者暴露出去)
未来社会
必然涉及财富再分配,低端岗位淘汰,下岗工人靠救济生活。
争当2%的人