Chapter - 16 Exercise(1-7)

你如何定义强化学习？它与常规监督或无监督学习有什么不同？
强化学习是机器学习的一个子领域，旨在创建能够在一个环境中采取行动的代理，随着时间的推移，以最大化奖励。RL与常规监督和无监督学习之间存在许多差异。以下是其中一些：

在有监督和无监督学习中，目标通常是在数据中找到模式。在强化学习中，目标是找到一个好的政策。
与监督学习不同，agent没有明确给出“正确”的答案。它必须通过反复试验来学习。
与无监督学习不同，通过奖励，这里存在一种监督形式。我们不会告诉agent如何执行任务，但我们会告诉它何时进行任务或何时失败。
强化学习agent需要在探索环境，寻找获得奖励的新方法以及利用其已知的奖励来源之间找到适当的平衡点。相比之下，有监督和无监督的学习系统通常不需要担心探索;他们只是根据提供给他们的训练数据进行学习。
在有监督和无监督的学习中，训练实例通常是独立的（事实上，它们通常是混乱的）。在强化学习中，连续观察通常不是独立的。在移动之前，agent可以在环境的相同区域中保留一段时间，因此连续的观察将非常相关。在某些情况下，使replay memory来确保训练算法获得相当独立的观察。

你能想到本章未提及的RL的三种可能应用吗？对于每种情况来说，环境是什么？ agent 是什么？行动是什么？有什么奖励？
以下是强化学习的一些可能的应用，除了第16章中提到的那些：

个性化音乐推荐 - Music personalization

环境是用户的个性化网络电台。
agent是决定该用户接下来要播放的歌曲的软件。
可能的动作是播放目录中的任何歌曲（它必须尝试选择用户将喜欢的歌曲）或播放广告（它必须尝试选择用户将感兴趣的广告）。
每次用户收听歌曲时获得小奖励，每次用户收听广告时获得更大奖励，当用户跳过歌曲或广告时获得负奖励，如果用户离开则获得非常大的负面奖励。

营销 - Marketing

环境是贵公司的营销部门。
agent*是一个软件，根据他们的个人资料和购买历史记录定义应向哪些客户发送邮件活动。
对于每个客户，它有两个可能的动作：发送或不发送
它会对邮寄广告系列的费用产生负面回报，对此广告系列产生的估算收入产生积极回报。

产品交付 - Product delivery

让agent控制一批运货卡车，决定他们应该在仓库接收什么，他们应该去哪里，他们应该放下什么，等等。对于按时交付的每种产品，他们都会得到积极的回报，对于延迟交付，他们会得到负面的回报。

折扣率是什么？如果修改折扣率，最优策略会改变吗？

在估算某个动作的价值时，强化学习算法通常会将此动作带来的所有奖励加起来，给予即时奖励更多的权重，减轻后期奖励的权重（考虑到动作对近期的影响比对遥远的未来更具影响力）。

为了对此进行建模，通常在每个时间步应用折扣率。例如，在折扣率为0.9的情况下，当你估计行动的价值时，在两个时间步之后收到的100的奖励仅计为 $0.9^2×100 = 81$ 。你可以将折扣率视为衡量未来相对于现在的价值的指标：

如果它非常接近1，那么未来的价值几乎与现在一样多。
如果它接近0，那么只有直接奖励很重要。

当然，这极大地影响了最优策略：

如果你重视未来，你可能愿意为最终奖励的前景忍受很多直接的痛苦，
如果你不重视未来，你将获得你可以找到的任何即时奖励，从不投资未来。

你如何衡量强化学习 agent 的表现？

要衡量强化学习 agent 的表现，你可以简单总结它得到的回报。在模拟环境中，你可以运行多个episodes并查看平均获得的总奖励（可能会查看最小值，最大值，标准偏差等）。

什么是信用分配问题？什么时候发生？你怎么能减轻它？

信用分配问题是，当强化学习 agent 收到奖励时，它无法直接了解其先前的哪些行为对此奖励有贡献。它通常发生在一个动作与所产生的奖励之间存在很大的时间延迟时（例如，在Atari的乒乓球比赛期间，在球员击球之前和赢得该球的那一刻之间可能会有几十个时间步长）。

减轻它的一种方法是在可能的情况下为 agent 提供短期奖励。这通常需要有关任务的先验知识。例如，如果我们想要建立一个学会下棋的agent，我们可以在每次捕获对手的棋子时给予奖励，而不是仅在它赢得比赛时给予奖励。

使用replay memory有什么意义？
agent 通常可以在一段时间内保持在其环境的同一区域，因此在那段时间里，它的所有经历都非常相似。这可能会在学习算法中引入一些偏差。它可能会调整这个环境区域的策略，但一旦离开这个区域就不会表现良好。

要解决此问题，你可以使用replay memory; agent 不会仅使用最直接的学习经验，而是根据过去经验的memory来学习，最近也并不是特别近的经历（也许这就是为什么我们在晚上做梦：重播我们当天的经历并更好地学习他们？）。

什么是off- policy RL算法？

off- policyRL算法学习最优策略的值（即，如果 agent 采取最佳行动，每个状态可以预期的折扣奖励总额），与 agent 的实际行为无关。 Q-Learning是这种算法的一个很好的例子。
相反，on-policy算法学习 agent 实际执行的策略的值，包括探索和利用。

Thank You!

在我们结束本书的最后一章之前，我要感谢您阅读本书直到最后一段。我真的希望你读这本书的乐趣与我写的一样多，而且它对你的项目有用，无论大小。

如果你发现错误，请发送反馈。更一般地说，我很想知道你的想法，所以请不要犹豫，通过O'Reilly，或通过ageron / handson-ml GitHub项目与我联系。

展望未来，我对你的最好建议是练习和练习：尝试进行所有练习，如果你还没有这样做，玩Jupyter笔记本，加入Kaggle.com或其他ML社区，观看ML课程，阅读论文，参加会议，见专家。你可能还想研究本书未涉及的一些主题，包括推荐系统，聚类算法，异常检测算法和遗传算法。

我最大的希望是本书将激励你构建一个有益于我们所有人的精彩的ML应用程序！会是什么呢？

AurélienGéron，2016年11月26日

最后编辑于：2018.11.08 21:05:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,084评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,623评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,450评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,322评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,370评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,274评论 1赞 300
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,126评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,980评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,414评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,599评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,773评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,470评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,080评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,713评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,852评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,865评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,689评论 2赞 354

Chapter - 16 Exercise(1-7)

Thank You!

推荐阅读更多精彩内容