人工智能的未来 - Hassabis (峰哥summary)
/ 文:@峰哥何峰 /
最近看了一些有关【深度血系】(Deep Learning)的讲座视频。原本想和女朋友讨论(她是伦敦大学学院/UCL 认知神经学毕业的,要说还算是 DeepMind 几位创始人, 也就是阿尔法狗 AlphaGo 的缔造者,的校友)。但是她是在提不起兴趣看这些讲座。于是我把这些讲座 summary 整理出来,作为和她探讨的基础,顺便也分享出来。说明:这些不是讲座完整内容的 summary,而是我感兴趣的部分,同时伴有一些我的补充。
Demis Hassabis - The Future of AI (人工智能的未来)
演讲者 Demis Hassabis 是 DeepMind 创始人&CEO。Hassabis 本人出生于伦敦,本科毕业于剑桥,后在从 UCL(伦敦大学学院 University College London)获得 cognitive neuroscience 博士学位。本次讲座是在牛津大学。讲座发生的时间是 2016年 2月,也就是在 AlphaGo 跟李世石对局之前。Hassabis 在讲座中也着重介绍了 AlphaGo。以下是我从讲座中提炼出的内容:
1、DeepMind 的目标 是 1)先解决人工智能,然后 2)通过人工智能解决人类一切其他问题,比如科研、医疗、环境问题。Hassabis 本人尤其对引入人工智能来协助科研非常感兴趣和抱有极大期许。人类所积累的知识已经无比广博和复杂,Hassabis 感觉仅仅再凭人的血肉之躯来学习、组织、推进这些知识已经不能够胜任。
2、Reinforcement Learning
所谓 Reinforcement Learning,是 AI 系统学习的一种方式。这种学习方式很类似人类婴儿的学习方式:AI 系统观察它所在的环境,采取一个行为(action),然后观察结果。在这样不断的反馈中学习。
为什么 DeepMind 选取了这个研究框架?因为研究表明,似乎动物和人类就是这么学习的。这给了 Hassabis 以信心:如果生物可以通过 reinforcement learning 实现智能,那么机器应该也可以。
峰哥 comment:
在机器学习中,曾经非常流行的一个方法是 HMM (hidden markov model)。这是通过统计学的模型来实现如语音识别等。当时也取得了非常大的成功,但之后就陷入了瓶颈。等到 2000 年左右,峰哥在学习人工智能的时候,虽然这还是当时热门的技术,但是已经感觉后继乏力。博士生们在用各种奇技淫巧,只为了把准确率提高半个百分点。
人类自己在做语音识别、文字翻译等工作的时候,似乎并不是通过复杂的统计学模型去完成,所以如 HMM 这样的方法,虽然在刚开始获得了一定成功,很有可能最终是个死胡同。就好像通过爬树来实现登月:刚开始一直有稳定的进展,直到有一天,突然不再 work.
电脑围棋也经历的类似的过程:蒙特卡洛方法(也是统计学、概率论中的一种方法)在几年前进入电脑围棋后,立刻获得巨大成功。电脑围棋的水平从以前的不可理喻,很快成长到业余高段的水平。这个峰哥特别有感触,因为我跟电脑下棋,正好从全面碾压到被碾压,当时的心情跟李世石现在估计差不多。但是,之后似乎水平就达到一个瓶颈。似乎【蒙特卡洛】这棵树,也爬到了尽头。如果需要突破,需要另有创新。人类在下围棋的时候,明显也不是通过【蒙特卡洛】这样海量穷举的方法来进行的。难道要达到人类围棋水平,真的必须要模拟人类思考围棋的方式?
另一方面,人类很多工程上的成就,也并非通过【仿生】来实现的。汽车飞机,在速度、距离上已经超过了飞禽走兽,但是其工作原理跟后者几乎没啥交集。实际上,人类最初对于飞行的尝试走了很大弯路,就是因为太禁锢在【仿生】的思路中。
人工智能最终会是通过模仿动物和人类来实现,还是另外走出一条不同的路?大自然已经通过进化找到了解决智能的一个解(我们就是成果)。这会是唯一解吗?
3、Grounded cognition
"A true thinking machine has to be grounded in a rich sensormotor reality"
上面是 Hassabis 原话。一个类似的概念是 embodied AI,即,要构建一个有智能的 agent,不能仅仅是通过软件,而是需要有一个身体,能够通过各种 sensors 感知自己所在的环境。不意外的,这个领域的研究人员很多在从事机器人的研究。DeepMind 则是选择了虚拟世界。但其背后的意思是一样的:智能是需要建立在与自己所在环境互动的基础之上。
4、机器学习打游戏
DeepMind 的一大成就,是开发出了能够自己学习打游戏的系统。这套系统的令人惊异在于,它能够通过观察图像,学会玩各种不同的游戏。请注意,这是同一个程序,自学了各种不同的游戏。这些游戏有着迥然不同的规则,视觉输出。在这个游戏的世界中,可以说 DeepMind 已经建成了 general AI(这是不是可以翻译成[通用AI]?)。
DeepMind 的这个成就,被发表于 2015年 2月 Nature 杂志(http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html)
5、Neuroscience-inspired AI
DeepMind 在决定研究方向的时候,会从人脑的结构中获取灵感,包括人脑的算法、representation、architecture。
6、AlphaGo 是如何养成的
首先说一点:AlphaGo 的养成过程中,并没有用到专业棋手的数据,而是从网上下载的业余高段棋手数据。具体步骤如下:
1、用网上下载的 10万局业余高段棋手对局,训练出了一个程序(叫做 policy networks, 咱们姑且叫它 P1 吧)。所谓训练,就是猜下一手棋,也就是模仿业余高手的对局。
2、让程序自己跟自己下上百万局对局,从自己的成功和失误中学习。这个训练结束后,成为程序 P2。P2 对局 P1 有 80% 的胜率。
3、再之后,P2 不再学习,而是自我对局 3千万局,成了一个巨大的数据库,里面包括了每一步棋,以及最后的输赢。再用这个数据库,训练了另一个程序,叫做 value networks,姑且管它叫 V 吧。V 的功能是判断此时棋盘上的局势,各方胜率。
AlphaGo 对局的时候,是 P2 和 V 并用。P2 通过棋盘上的情况,给出下一步走法的各种可能性,以及对于的概率;V 则来判断各种走法之后,盘面的形式。
Hassabis 有个很好的形容:
P2 给出最佳的几个走法,其作用是降低搜索宽度;
V 则是迅速给出局势的判断,其作用是降低搜索深度。(比如,不需要做大量的蒙特卡洛演算来判断局势。)
======
简单心理平台专注于提供靠谱心理咨询和相关服务。
了解更多,请访问 jiandanxinli.com
加入我们!戳 =>http://www.jiandanxinli.com/pages/37
微信公号:@简里里