机器学习简史【译】

原文:Brief History of Machine Learning

第一次看到这篇文章应该是在去年,觉得很不错。收藏了很久,最近才想到把它翻译成中文。文中没有太多理论和技术的细节,对机器学习和人工智能感兴趣的可以当作茶余饭后的消遣了解一下。本文没有包括参考文献,如需要,请阅读原文。水平有限,欢迎指正。

我的机器学习时间线,[这里](http://upload-images.jianshu.io/upload_images/1182935-54c5e8779defa331.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)看大图

自从科技和人工智能发源以来,科学家们追随帕斯卡和莱布尼茨的脚步,思考着机器是否能像人类一样具备智能这一命题。儒勒·凡尔纳、法兰克·鲍姆(《绿野仙踪》)、玛丽·雪莱(《弗兰肯斯坦》)、乔治·卢卡斯(《星球大战》)都设想了能够模仿人类行为,甚至在不同情境下都具备类人技能的人造物。

帕斯卡的加减法器 - 1642

机器学习是实现人工智能的一个重要途径,如今在学术界和工业界都是炙手可热。公司和高校都投入了大量资源来拓展这一领域的知识。最新的成果在多种不同任务中都表现非常不错,足以媲美人类(识别交通标志的准确率高达98.80%,超过了人类)。

我接下来要讲的,是机器学习发展历程的一条粗略时间线,我会指出其中一些具有里程碑意义的节点,但这并不是全部。另外,在文中每个观点的前面,都应该加上“据我所知”四个字。

1949年,Hebb在一个神经心理学学习方程的基础上,向如今盛行于世的机器学习迈出了第一步。该理论被称为“赫布理论”。简单来讲,赫布理论研究的是循环神经网络(Recurrent Neural Network)中节点之间的相关性。RNN在网络中记忆共性特征,起到类似记忆的作用。赫布理论的形式化表述如下:

假定反射行为的持续和重复(或称作“痕迹”)能够引起细胞的永久改变,进而提高该行为的稳定性...如果细胞A的轴突距离近到可以激发细胞B,并且反复或持续的参与到细胞B的激活中,两个细胞其中之一或者两者皆会进行增长或发生代谢性变化,使得A激活B的效率得到提升。

Arthur Samuel

1952年,IBM的Arthur Samuel开发了一个玩西洋跳棋的程序。这个程序可以观察棋子的位置并构建一个隐式的模型,用来改进之后下棋的策略。Samuel和这个程序玩了很多局,发现它随着时间的推移玩得越来越好。

Samuel用这个程序推翻了机器的能力不能超越其代码且不能像人类一样学习的论断。他以如下方式定义了“机器学习”这一概念:

不需要显式编程就可以赋予机器某项能力的研究领域。

F. Rosenblatt

1957年,同样具备神经科学背景的Rosenblatt提出了第二个模型:感知机(Perceptron),它更接近如今的机器学习模型。这在当时是一个让人激动的发现,实际上感知机也比赫布的理论更加容易应用。Rosenblatt是这样介绍感知机的:

感知机用来从总体上描述智能系统的一些基本属性,而不必过多纠缠于具体生物组织的那些特殊的、通常未知的条件。

3年之后,Widrow提出了差量学习规则,随即被用于感知机的训练。这也被称为“最小平方”问题。结合感知机和差量学习,可以创建出很好的线性分类器。然而,Minsky在1969年给感知机的热潮泼了一盆冷水。他提出了著名的“异或”问题,指出感知机无法处理像这样线性不可分的数据分布。这是Minsky对神经网络社区的致命一击。此后,神经网络研究陷入停滞直到80年代。

数据线性不可分的“异或问题”

尽管Linnainmaa在1970年曾以 “ reverse mode of automatic differentiation ” 这个名字提出过反向传播的想法,但是并没有得到太多关注,直到Werbos在1981年提出了多层感知机(Multi-Layer Perceptron)的设想和针对神经网络的反向传播算法(Backpropagation)。反向传播至今仍是神经网络架构的关键算法。有了这些想法,神经网络的研究再次提速。1985到1986年之间,多位研究者先后提出了MLP的想法和具有使用价值的BP算法。

来自Hetch和Nielsen的论文

与此同时,J. R. Quinlan在1986年提出了一个非常著名的机器学习算法,我们称之为“决策树”,具体来讲就是ID3算法。这是机器学习另一个主流分支的起点。不仅如此, 作为一个发行软件 ,ID3的简单规则和清晰预测可以找到更具实际意义的使用场景,这点不同于还是黑盒的神经网络模型。

在ID3之后,研究社区提出了很多变体和改进(例如ID4、回归树、CART等等),至今仍是机器学习领域里的一个活跃分支。

来自Quinlan的论文

机器学习的最重要的突破之一是Vapnik和Cortes在1995年提出的支持向量机(Support Vector Machine),它同时具备坚实的理论基础和亮眼的实验结果。从那时开始,机器学习社区分裂成了拥护神经网络和SVM的两个派别。然而,当SVM的核化版本在2000年左右被提出之后(我找不到第一篇关于这个话题的论文了),神经网络开始在竞争中处于下风。SVM在此前被神经网络模型占据的很多任务中都取得了最佳成绩。并且,SVM可以利用在凸优化、综合边际理论和核函数方面的丰富研究成果来超越神经网络。因此,它可以从不同学科汲取养分从而极大的推动了理论和实践的发展。

来自Vapnik和Cortes的论文

Hochreiter在1991年的学位论文和2001年发表的论文又给了神经网络沉重的一击,这些论文表明,应用BP学习在神经网络的单元饱和时将遭遇梯度损失。简而言之,由于单元会饱和,在超过一定循环次数之后继续训练神经网络是画蛇添足的,因为神经网络很可能在少数训练循环之后就产生了过拟合。

在此之前不久,Freund和Schapire在1997年提出了另一个有效的机器学习模型,这种名为Adaboost的模型组合多个弱分类器来提升性能。这项研究在当时为作者赢得了Godel奖。Adaboost构建一组易于训练的弱分类器,同时对其中相对较难训练的个体赋予较高的重要性。这一模型现在也是很多不同任务的基础,比如面部识别和检测。它也是“可能近似正确”(PAC)学习理论的实现。一般来讲,所谓的弱分类器被选作简单的决策桩(决策树中的单个节点)。他们如此介绍Adaboost:

我们研究的模型可以被解释为在一般决策场景下对已经充分研究的在线预测模型的一种广泛的、抽象的扩展。

Breiman在2001年研究了另一种使用多个决策树的组合模型,其中每棵树都是用训练样例的一个随机子集训练得到的,树的每个节点都来自一组随机选择的特征子集。由于这一特点,该算法被称作“随机森林(Random Forest)”。理论和实践都证明RF可以避免过拟合。AdaBoost在面临过拟合和异常数据时表现不佳,但是RF在这方面这更加健壮。(RF的更多细节请参考我以前的文章)。RF在Kaggle竞赛等很多任务上都有不错的表现。

随机森林是一组树形预测器的组合,每棵树取决于独立随机采样的向量值且该向量值对森林中所有树具有相同分布。当森林中树的数目很大时,泛化误差收敛于某个极限值。

时至今日,神经网络已经进入了“深度学习”的新时代。“深度学习”一词是指具备多个级联层次的神经网络模型。2005年前后,依靠Hinton、LeCun、Bengio、Andrew Ng以及其他很多资深研究人员在以往和当时的各种研究成果,神经网络开始了第三次崛起。我列出了其中一些重要的标题(我想我以后可能会专门写篇文章讨论深度学习)。

  • GPU编程
  • 卷积神经网络(CNN)
    • Deconvolutional Networks
  • 最优化算法
    • 随机梯度下降(Stochastic Gradient Descent)
    • BFGS和L-BFGS
    • 共轭梯度下降(Conjugate Gradient Descent)
    • 反向传播
  • 整流单元(Rectifier Units)
  • 稀疏性(Sparsity)
  • Dropout网络
    • Maxout Nets
  • 无监督神经网络
    • 深度置信网络(Deep Belief Networks)
    • Stacked Auto-Encoders
    • Denoising NN models

基于这些以及其他没有列出的成果,神经网络模型在诸多不同任务上都击败了当时最先进的算法,例如物体识别,语音识别,自然语言处理等等。然而,值得说明的是,这绝不表示机器学习的其他分支就此终结。尽管深度学习声名鹊起,对这些模型仍然有很多关于训练成本和外生参数调优的批评。同时,SVM凭借其简洁性仍然得到了更多的应用。(据说如此,但存在争议)。

结束本文之前,我想谈谈机器学习领域里另一个相对新兴的研究趋势。随着万维网和社交媒体的增长,大数据这个新概念开始崭露头角并且对机器学习的研究产生了重大影响。由大数据引发的大问题,让很多强大的机器学习算法在现实系统中毫无用武之地(当然,科技巨头们除外)。因此,研究人员提出了一类被称为“土匪算法”(官方名称是“在线学习”)的简单模型,这让学习变得更加简单以适应大规模问题。

这篇不成熟的机器学习简史就到此为止了。如果你发现了错误,不足和没有引用文献的地方,欢迎不择手段的向我发出警告。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容

  • 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注...
    Albert陈凯阅读 22,217评论 9 476
  • 现在是2017年 我在夏天等待冬天的雪花。 现在是2017年 我十八岁,回忆着童年,恐惧着未来。 现在是2017年...
    何东东yeah阅读 278评论 1 4
  • 北方的天气,干燥凉爽的夏天,吹干了我眼眶里一半的眼泪。 打开电脑,网页还显示的是在公寓里窗台边搜索的内容,感觉心里...
    岁月白猫阅读 721评论 2 7
  • 晓明(我还没想好今后怎么称呼你),因为我,你今天一天都很难受,对不起,我会用心去对你好,请相信我,其实我也不知道该...
    我期待的是阅读 126评论 0 0
  • #玩卡不卡·每日一抽# 每一位都可以通过这张卡片觉察自己: 1、直觉他叫什么名字?我 2、他几岁了? 40 3、他...
    深海观鱼阅读 229评论 0 0