1.1 这是一本什么书
1.2 强化学习可以解决什么问题
一 强化学习所能解决的问题
强化学习所能解决的问题:智能决策问题强化
更准确的说是:序贯决策问题
何为序贯决策问题:需要连续不断地做出决策,才能实现最终⽬标的问题
1.3 强化学习如何解决问题
一 如何解决序贯决策问题
1.监督学习
解决的问题:智能感知的问题。
例⼦:数字⼿写体识别
首先,监督学习要先感知输入的模样(特征);然后,智能体对其进行分类(标签)。
因此,智能感知的前提:需要 海量、有差异的输入 + 输入相关的标签。
小结:监督学习解决问题的方法:输入大量有标签的数据,让智能体从中习得输入的特征并可对其分类。
2.强化学习
不同与监督学习
强化学习不关心输入的模样,只关心在当前输入的情况下要采取什么动作来实现最终目的。
采取何种动作的出发点:使整个任务序列达到最优(这就需要智能体不断地与环境交互,不断尝试。因为此时智能体也没有上帝视角,完全不知哪个动作最有利于实现目标)
2.1 强化学习解决问题的框架
智能体通过动作与环境进⾏交互时,环境会返给智能体⼀个当前的回报,智能体则根据当前的回报评估所采取的动作:有利于实现⽬标的动作被保留,不利于实现⽬标的动作被衰减。
强化学习与监督学习的共同点:二者都需要大量的数据进行训练
强化学习与监督学习的不同点:监督学习需要的是多样化的标签数据,强化学习需要的是带有回报的交互数据。即数据类型不同。
3.强化学习发展史
1998,Richard S.Sutton《强化学习导论第⼀版》,即Reinforcement Learning:An Introduction
2013,DeepMind提出DQN(Deep Q Network),将深度⽹络与强化学习算法结合形成深度强化学习
2016年和2017年,⾕歌的AlphaGo连续两年击败世界围棋冠军
现今