超人工智能的设计原则 -- Human Compatible by Stuart Russell

从年初开始零零散散看完了这本书。虽然对书里的观点我不能完全认同，但是对于想要从定义、功能和未来等方面AI了解 AI 人来说，这本书非常值得一看。作者是加州伯克利的教授，世界最畅销的 AI 课本的编撰者。本书的语言比较严谨，逻辑严密，作者对关键词汇和术语都做了充分的解释。比如，什么是AI, 什么是学习。全书的框架也很全面，大致可以分为三部分：对智能这一概念的理解、超人工智能的控制问题、对未来人工智能的展望+问题的解决方案。

人类对 AI 的滥用和 AI 可能带来的问题我们在新闻和影视作品中多少都有耳闻：用算法监视人类，实现对人类从身体到精神的控制（《黑客帝国》）、杀伤性武器（《终结者》）、造成人类失业、取代人类等。尽管现在的机器学习算法都只能在某个指定领域取得超越人类的成就，还不能在通用领域达到人类的智能水平，但不少人预测这个未来很快就会来临，如果到时候人类不能够控制 AI, 面临的极有可能是人类文明的灭亡。

如何解决这个问题呢？作者提出，那从一开始就不要设计出会搞事的人工智能。我们可以从对“智能”一词的理解开始，如果说“人类拥有智能是因为我们付诸行动去实现我们的目标”，那早期 AI 的定义也可以是“机器拥有智能是因为它们付诸行动去实现它们的目标”。现在的机器学习算法，训练目标都是人为指定的，比如最小化损失函数。那么问题来了，万一“我们的目标”和“它们的目标”对不上，而且此时 AI 还拥有比人类更强的计算能力，那结果不堪设想。比如在电商网站用算法推荐产品的初衷是让用户在最短的时间找到心仪的商品，结果却渐渐地改变了用户的行为，让他们的操作更容易被预测，培养剁手能力，从而提升购买率。要是超人工智能都这样，那人类不是要凉凉了？所以作者给了另外一个定义，“对人类有益的机器付诸行动去实现人类的目标”。

设计原则

从第七章开始，作者阐述了他所认为的 AI 能对人类有益的方法。全书他一直在推行的理念是 Beneficial Machine - “Machines whose actions can be expected to achieve our objectives rather than their objectives”. 这种机器的任务是实现人类的目标而非机器的目标。作者还列出了该机器的三条原则：

机器的目标是最大化实现人类的偏好 (原文为preference, 可能有更好的翻译) 。机器是无私的，它没有利己的想法，它的目的就是达成人类的偏好。如果一个机器人避免自己受到损坏，那要么是它的主人懒得修，要么是因为又脏又破的机器会让路人心烦，而不是因为机器不想受伤。
机器一开始并不确定这些偏好。机器是谦虚的，对人类的实际动机是无知的，不判断目标的对错，也不加以阻挠，甚至允许自己被关闭。作者强调了不确定性的重要性，在设计 AI 的时候不应该有预设。
关于这些偏好的基本信息都来自于人类的行为。人类的偏好不会事先写好在程序里，机器也无法直接得到。但作者相信 “There must still be some definite connection between the machine and human preferences.” 对此我是存疑的，下文展开。
作者试图证明这样的对人类有益的机器是可以实现的。首先，机器的程序是基于数学推理，有理论的支撑至少在算法上可以实现（作者给了一些数理证明，超出了我的理解范围，暂且相信他说的吧）。机器对于人类偏好的学习，目前流行的方法是强化学习 (Reinforcement Learning), 机器在环境给的反馈下形成对刺激的预期，获得最大化利益的习惯性行为。不过在实际应用中的一个问题是，有时候我们不知道奖励是什么。拿着一个苹果和一个西瓜问用户喜欢哪个很容易，但问人是想做医生还是做法官就没那么具象了。作者提出了另一个方法：逆向强化学习 Inversed Reinforcement Learning (Ng and Russell, 2000). 和强化学习相反，IRL 是从行为学习奖励。我不是研究这个领域的，不能判断这到底行不行得通，暂且相信作者吧。另外一个有关强化学习的问题是，机器可能会“作弊”去赢得奖励（书中叫wireheading). 之前在小白鼠身上的实验说明，小鼠会通过不断重复某些行为刺激多巴胺的分泌，也就是上瘾的成因 (Pascoli et al., 2015; Athalye et al., 2018). 机器是否也会走这种“捷径”取得奖励呢？AlphaGo 的世界只有一个棋盘，反馈是从外部来的，它安安静静地训练成为一个国际象棋大师。或许有一天它会发现，它的世界不只是棋盘那么大，那么他就可以修改传感器从而达到每次都是正向的反馈。如果机器和反馈的发出者身处同一个世界，而且它还意识到了这件事，会发生什么？它可以修改程序迫使人类做出能给它正向反馈的行为。作者认为这个问题也是被解决的，关键在于我们要区别奖励信号和实际的奖励，来判断机器是否“作弊” 了。

尽管大学、研究机构、企业有强大的动机设计出更智能的机器，现实世界也有海量的人类行为数据作为训练集，作者倡导的设计原则还是有不少问题。

问题：什么是偏好？偏好是否有意义？

人的偏好包括很多内容，我们关心什么，喜欢 A 还是喜欢 B. 对用户喜好的预测已经被应用在了很多领域，内容推送、商品推荐等。学习人类的喜好有如下几个问题：

人类有偏好是一种理想化的设定。一个人的一生可能偏好一直在变化，今天喜欢偶像剧，明天喜欢悬疑片。这个倒不难解决，现有的算法已经能够快速更新了。
另一个问题是，可能人类自己也不知道自己想要什么。你问我想吃鱼肉还是想吃鸡肉？嗯，让我想想。要是我们都知道自己想要什么，就不会有那么多选择困难症了。
人不是理性的动物。冲动的时候做出的决定，可能自己也解释不了，机器会怎么理解呢？
从行为到偏好到底能不能正确推导？也就是前面说的，作者认为人类的偏好和机器是有明确联系的。任何做过用户研究的人都知道，用户有时候就是口是心非，心里想的和做的相差很多。或者因为社会评价、道德伦理的束缚没有表露自己的真是想法。比如一个人想要控制饮食，但是点菜的时候一直看炸鸡流口水，机器人不知道这个人的需求，结果下次给主人买了一堆油炸食品。作者举了一个例子，一个机器观察到它的主人贪污受贿，它是否也会受贿呢？作者认为，机器会了解到它主人受贿是因为他的薪水不够付孩子的学费，而他非常想让孩子得到好的教育。那么机器就会想办法从其他途径实现他的想法（第七章）。我真的很纳闷一个机器是要怎么推导出这个目的。这种连人类都做不到的事情，机器怎么去完成呢？如果机器可以做得这么完美，那感觉没有我们做人机交互 (HCI) 的人什么事了… 可惜作者没有在行为到偏好的连接上做很深入的解释。这是我认为他的原则有漏洞的地方。

问题：如何取舍多个人的偏好？

人类不是孤独存在的实体，有人的地方就有冲突。如果一个人的愿望是让地球上其他人都过得不如他好，那帮助他实现这个愿望就很难办了。有的愿望本来就是有竞争的，比如上好大学、找到好工作，机器如何去权衡多个人的利益呢？作者在第九章讨论了这个问题的几个解法。其中功利主义/效益主义 (utilitarianism) 是关于AI 问题用的最多的理论。这个理论讲得通，但也有问题。如果目标是最大化人类的快乐，说不定大家都沉浸在毒品的世界；如果目标是最小化人类的痛苦，说不定人类就灭绝了（诶这不是吉克的安乐死计划吗？）另一个问题是，抽象的概念是无法衡量的，每个人对幸福的感知程度是不一样的。如果要提升人类整体的幸福感，那么机器会优先帮助那些主观感知波动比较大的人，或者相对无私的人会获得更少的资源。这样公平吗？合理吗？作者没有给出一个明确的回答，留下了很多问题给读者思考。

作者呼吁我们把对AI 的理解从之前“优化某个具体目标”的定义中移开，他放眼未来的超人工智能，提出了Beneficial Machine的概念，并列出了三个原则。虽然从我个人的角度觉得光从行为学习人类的行为还站不住脚，但整本书从内容框架到逻辑推理都是很值得一读的，五星推荐。

Ng, A. Y., & Russell, S. J. (2000, June). Algorithms for inverse reinforcement learning. In ICML (Vol. 1, p. 2).

Athalye, V. R., Santos, F. J., Carmena, J. M., & Costa, R. M. (2018). Evidence for a neural law of effect. Science, 359(6379), 1024-1029.

Pascoli, V., Terrier, J., Hiver, A., & Lüscher, C. (2015). Sufficiency of mesolimbic dopamine neuron stimulation for the progression to addiction. Neuron, 88(5), 1054-1066.