从技术层面看,AlphaGo结合了3大块技术:
先进的搜索算法、机器学习算法(即强化学习),以及深度神经网络。
这三者的关系大致可以理解为:
蒙特卡洛树搜索 (MCTS) 是大框架,是许多牛逼博弈AI都会采用的算法
强化学习 (RL) 是学习方法,用来提升AI的实力
深度神经网络 (DNN) 是工具,用来拟合局面评估函数和策略函数
(引用自https://www.zhihu.com/question/41176911/answer/90066752
的Tao Lei的答案)
网上人工智能的mooc比较出名的有Berkeley的CS188
http://ai.berkeley.edu/course_schedule.html
和udacity上的那门Sebastian Thrun和Peter Norvig合搞的课。
关于reinforcement learning,udacity也有门课,还有http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
是UCL专门开来讲reinforcement learning的。
从另外一个层面看,实际上击败李世石的并不是“真正”的人工智能,而是依靠由人设计和调整参数的搜索算法,关键是“目标函数”也是由人来决定的。
当程序能够自己决定“目标函数”的时候可能才是真正人工智能来临的时刻(感觉这个过程类似于人认识到自己,有点像是一种复杂形式的递归),不晓得研究神经科学的和这堆搞深度学习的人能不能突破一下。