迷雾探险1 | 强化学习的开始学习

目前搜到的资料汇总

视频教程

李宏毅机器学习课程第28讲，深度强化学习入门课程相关PPT链接密码：77u5
李飞飞、吴恩达、Bengio等人的顶级深度学习课程需要翻墙

一些概念扫盲

机器学习的四种主要类型：
（1）监督机器学习（如回归，分类）：使用打了标签的数据给程序“训练”。用于进行预测。
（2）半监督机器学习（如聚类，降维）：一部分“训练”数据，一部分“产出”数据。
（3）无监督机器学习：没有任何输入的训练数据。使用“聚类”算法和“关联”算法找到同模式的数据并排序。没有标签与数据点相关联。这些ML算法将数据组织成一组簇。此外，它需要描述其结构，使复杂的数据看起来简单，有条理，便于分析。
（4）增强机器学习：提供规则，使其寻找符合规则的最佳算法，输入的数据仅有“是否胜利”，国际象棋是这种算法一个很好的例子。使用这些算法来选择动作，一段时间后，算法改变其策略以更好地学习。
（5）深度学习：更深层次，灵感来源于大脑的工作方式，使用端到端的方式来解决问题，输入的数据和训练的时间越多，算法效果越好。

机器学习和深度学习的区别
（1）深度学习数据依赖更多，数据量小的时候深度学习反而表现不佳。
（2）深度学习依赖于高端机器，而传统学习依赖于低端机器。因此，深度学习要求包括GPU进行大量的矩阵乘法。
（3）深度学习算法中有太多参数，需要更多的执行处理时间。机器学习只花需要更少的时间进行训练。
（4）普通神经网络由于训练代价较高，一般只有3-4层，而深度神经网络由于采用了特殊的训练方法加上一些小trick，可以达到8-10层。深度神经网络能够捕捉到数据中的深层联系，从而能够得到更精准的模型，而这些联系不容易被普通的机器学习方法所发觉。

深度学习和机器学习对数据量的依赖和效果

增强学习：
Reinforcementlearning, RL，又叫做强化学习：基本概念

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

也就是说增强学习关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。

强化学习涉及的基本元素和思想.png

环境（E）：智能体所处的物理世界；
状态（S）：智能体目前的状态；
奖励（R）：从环境中得到的反馈；
方案：将智能体状态映射到行动的方法；
价值（V）：智能体在特定状态下执行某项行动获取未来的奖励。

通过增强学习，一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习，我们把这个映射称为策略。

增强学习和监督学习的区别主要有以下两点（增强学习更接近生物学习的本质）：

（1）增强学习是试错学习(Trail-and-error)，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。
（2）延迟回报，增强学习的指导信息很少，而且往往是在事后（最后一个状态）才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。
（3）有监督学习和强化学习都会明确指出输入和输出之间的映射关系，但不同点在于，有监督学习给智能体的反馈是执行正确任务的行为集合，而强化学习反馈的则将奖励和惩罚转为积极和消极行为的信号进行反馈。
（4）对于无监督学习，强化学习的目标显得更加难以实现。无监督学习的目标仅仅是找到数据之间的相似和不同，而强化学习的目标却是找到一个能最大化智能体总累计奖励的模型。

增强学习最早的成功例子：Tesauro(1995)描述的TD-Gammon程序，使用增强学习成为了世界级的西洋双陆棋选手。这个程序经过150万个自生成的对弈训练后，已经近似达到了人类最佳选手的水平，并在和人类顶级高手的较量中取得40 盘仅输1盘的好成绩。

强化学习的主要模型和算法

1 MPD

对强化学习的研究可以从MPD(Markov desicion processes)开始。非确定的马尔科夫决策过程
马尔可夫决策过程（MDP）是所有强化学习环境的数学框架，几乎所有强化学习问题都可以使用MDP来搭建模型。一个MDP过程包含一个环境集合（S），每个状态中包含一个可能的行动集合（A），还包含一个实值奖励函数R（s）和一个转移矩阵P（s'，s | a）。不过，现实世界的环境中，环境动态的先验信息可能是未知的，在这种情况下，运用“不理解环境强化学习”算法（model-free RL）去进行预测会更加方便、好用。

Q-learning模型就是一种应用广泛的不理解环境强化学习模型，因此可以用它来模拟PacMan智能体。Q-learning模型的规则是，在状态S下执行行动a，不停更新Q值，而迭代更新变量值算法就是该算法的核心。

Reinforcement Learning Update Rule

一个深度强化学习实现PacMan游戏

2 不理解环境强化学习算法

Q-learning：一种离线学习算法，智能体需要从另一项方案中学习到行为a*的价值；Q-learning的一个极简的例子
SARSA：一种在线学习算法，智能体可从现有方案指定的当前行为来学习价值

这两种探索原理不同，但是开发原理相似。优点：容易实现。缺点：缺乏一般性，无法预估未知状态的值。一些更高级的算法可以解决这个问题。

DQN算法（Deep Q-Networks）：原理为利用神经网络来估计Q值。缺点：只能应用在离散的低维动作空间中。
DDPG（深度确定性策略梯度算法）则是一个理解环境的、在线的算法，它基于行动者-评论家(Actor-Critic AC)框架，可用于解决连续动作空间上的深度强化学习问题。

DDPG

强化学习的应用

最适用于模拟数据领域，如游戏、机器人等
广泛应用于设计游戏中的AI玩家：如AlphaGo Zero
搭建一个高效的自适应控制系统：如DeepMind关于“带有异步策略更新的机器人操纵的深度强化学习youtube视频”

如何开始强化学习

电子书：Reinforcement Learning-An Introduction 作者：强化学习之父Richard Sutton和他的博士生导师Andrew Barto
视频：强化学习的基础作者：David Silver
电子书：technical tutoria
实践：开始构建和测试第一个RL代理，来源于Andrej Karpathy的博客，讲述了如何用原始像素的策略梯度来训练神经网络ATARI Pong智能体，并提供了130行python代码来帮助你建立你的第一个强化学习智能体。
开源的3D游戏式平台：DeepMind Lab，为机遇智能体可以的人工智能研究提供丰富的模拟环境
基础AI研究的在线平台：Project Malmo
构建和比较强化学习算法的工具包：OpenAI gym

还没阅读的：https://www.cnblogs.com/NaughtyBaby/p/5438013.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 210,978评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 89,954评论 2赞 384
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,623评论 0赞 345
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,324评论 1赞 282
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,390评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,741评论 1赞 289
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,892评论 3赞 405
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,655评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,104评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,451评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,569评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,254评论 4赞 328
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,834评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,725评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,950评论 1赞 264
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,260评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,446评论 2赞 348