大数据、分析技术、物联网、云…在过去的几年里,这几位一直占据着各行各业的热门技术话题。如今,又有一项新技术进入了它们的行列,这就是机器学习-MachineLearning。Gartner已经把机器学习列为2016年的十大技术趋势之一,现在看来它一定会成为技术领域的核心话题,而且会越来越火爆。
老树发新芽
我对机器学习感到着迷的原因是它的基本原理可以追溯到70年代的早期人工智能研究。最初是在大数据巴士里看到的机器学习尽管那时的工作受到了计算能力和数据量的限制而停滞不前,但随着近年来计算与存储能力的飞跃,已经没有什么可以限制机器学习的大步前进了。
机器学习的目标听起来很简单:为系统提供信息,让系统具有自我学习的能力。这和我们所熟悉的传统软件与系统不太一样,因为我们常见的“硬代码”系统的基础就是用户行为和数据的交互,标准的“if-then-else”模式。
而机器学习或者说人工智能所需的算法复杂的多。系统需要自己开发分析模型,根据输入做出反应。系统模型会分析和解读获得的信息,自我修正,不断变化,产生不确定的行为。随着时间的推移,系统分析和行为将会越发精确。
机器学习就在身边
我们已经可以感受到机器学习的力量了,打开你常用的在线视频网站或者电商网站,登陆之后,你会看见系统推荐的内容列表。这背后实际上就是非常复杂的专有算法,系统会记录下你的每次操作并进行分析,基于这些信息开发出关于你的预期行为模型,并向你发送出推荐信息。然后你对这些推荐信息的处理也会反馈到算法,不断往复的调整你的行为模型。
智能手机也是机器学习的常用领域。“Siri,今天天气怎么样?”-以这个简单的语音助手应用为例,系统需要能够理解你的声音、口音和你的说话方式,才能将自然语言转换成系统可以处理的命令。如果系统无法确定,它会请你再说一遍,或者换一种说法,这就是系统学习的过程。每当你使用它的时候,你的手机也在学习你,更好地理解你在说什么。
一切都关乎数据
在我最近在大数据巴士里看到的一篇关于人工智能与机器学习的文章里,作者将数据比喻为“机器学习的燃料”。这是非常贴切的,机器学习的引擎具有复杂的算法和强大的模型,但没有数据作为燃料,发动机就无法工作,强大的网络效应也就无处发挥。我想起多年的同事,研究机构的首席战略官John Williams一直喜欢说的一句话“一切都关乎数据”,这在机器学习的世界里再正确不过了。
数据是机器学习能否成功的重要因素,以下是需要考虑的关键因素:
数据质量-在数据的世界里,这一直是重要的考虑因素。数据清洁在许多企业中已经成为标准化的做法与实现机器学习的关键步骤。把脏燃料添加到即使是最好的发动机中也不会收获预期的效果,反而会损伤发动机。
数据量-大数据是为机器学习量身定制的。算法与模型所接触的信息越多,系统反馈的结果就越好,因为机器学习的本质就是不断根据数据调整模型。人类需要阅读更多的书本来获得更多的知识,这一概念也一样适用于机器学习世界。
数据时效-除了数据量,数据能否快速及时也是需要考虑的因素。如果机器学习基于大量的过时数据,产生的模型也不会有太大的用场。