如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和简书使用头像一致。
我们继续来讨论多摇臂老虎机问题一些策略
Thompson sampling 算法
在 thompson sampling 算法中,假设每一个摇臂机给出收益都是服从一个概率分布,我们通过试探来学习出摇臂老虎机的背后的概率。怎么能估计怎么能估计概率 p 的概率分布呢? 答案是假设概率 p 的概率分布符合 beta(wins, lose)分布,有两个参数: wins, lose。每个臂都维护一个 beta 分布的参数。每次试验后,选中一个臂,摇一下,有收益则该臂的 wins 增加 1,否则该臂的 lose 增加 1。每次选择臂的方式是:用每个臂现有的 beta 分布产生一个随机数 b,选择所有臂产生的随机数中最大的那个臂去摇。
平稳与非平稳问题
平稳问题
- 是稳定的,不随时间而变化
- 随着观测样本的增加,平均估计方法最终收敛于
非平稳问题
- 是关于时间的函数
- 对 的估计需要更关注最近的观测样本
因为不平稳
这样做的好处就是让更新更关注最近的效果,
更新步长的选择
并不是所有的步长选择 都保证收敛
- 收敛
- 不收敛
收敛条件
- 第一个条件保证步长足够大,克服初值或随机扰动的影响,收敛与初始值无关
- 第二个条件保证步长最终会越来越小,小到保证收敛,表示收敛会越来越小
行为选择策略
- 如何制定合适的行为选择策略
- 贪心策略: 选择当前估值最好的行为
- 贪心策略: 以一定的概率随机选择非贪心行为(non-greedy actions),但是对于非贪心行为不加区分
- 行为选择策略
- 平衡利用(Exploitation)和探索(Exploration),应对行为估值的不确定性
- 关键: 确定每一个行为被选择的概率