1.强化学习基础
1.1 强化学习概念
强化学习通常用马尔科夫决策过程(Markov Desicision Process)来描述:机器(agent)在环境(environment)中,状态空间为S,其中每个状态s∈S是机器所处于的环境的描述;机器所能采取动作(Action),其空间为A;若机器采取动作a∈A作用于当前状态s,潜在的转移概率p会使得环境当前状态s按某种概率转移到另一状态s',同时环境会根据潜在的奖赏函数(Reward)给机器反馈一个奖赏。因而,强化学习可以用四元组E=<S,A,P,R> 来表达。其图示如下:
以下举例说明:
不同的state采取不同的action,会有一定概率发生状态转移,最后得到不同的reward。
机器要做的是在环境中不断尝试学习到一个最优的策略π,根据该策略,能知道状态s下需要执行的动作a=π(x)。策略优劣取决于长期执行该策略的累计奖赏,它有多种计算方法,包括T步累计奖赏、γ折扣累计奖赏等。其中γ累计折扣奖赏公式如下:
可以看到强化学习与监督学习不同的是,最终奖赏一般会体现在 多步 动作之后,从某种意义上来说,可以看作具有“延迟标记信息”的监督学习问题。而强化学习的最简单形态,最大化单步奖赏,对应的正是多臂老虎机理论。
1.2 多臂老虎机(MAB)
一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么想最大化收益该怎么整?这就是多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。
如果赌徒知道每个摇臂的期望奖赏,那么他只需要“仅利用(exploitation-only),即只要一直按下最大奖赏的摇臂。如果仅为获知每个摇臂的期望奖赏,则采用“仅探索(exploration-only)”,即轮流按下每个摇臂。事实上,“仅利用”和“仅探索”都难以实现累计奖赏最大化。事实上,“探索”和“利用”是矛盾的,欲使累计奖赏最大化,那就需要折中两者。
1.3 Bandit算法
Bandit算法有非常多种,我们采用累积遗憾(regret)来评估一个算法好坏。
MAB的每个臂的收益非0即1,也就是伯努利收益。算法每次选择后,计算和最佳的选择差了多少,然后把差距累加起来就是总的遗憾。
ε-Greedy
选一个(0,1)之间较小的数ε,每次决策以概率ε去勘探Exploration,1-ε的概率来开发Exploitation,基于选择的item及回报,更新item的回报期望,不断循环下去。
SoftMax
SoftMax利用softmax函数来确定各item的回报的期望概率排序,进而在选择item时考虑该信息,减少exploration过程中低回报率item的选择机会,同时收敛速度也会较ε-Greedy更快。
UCB
Upper Confidence Bound,步骤如下: 初始化:先对每一个臂都试一遍; 按照如下公式计算每个臂的分数,然后选择分数最大的臂作为选择:
其中,x_j是item_j的平均回报,n_j是item_j截至当前被选择的次数,n为当前选择所有item的次数。上式反映了,均值越大,标准差越小,被选中的概率会越来越大,起到了exploit的作用;同时哪些被选次数较少的item也会得到试验机会,起到了explore的作用。
LinUCB
UCB没用充分利用上下文信息Contextual,而LinUCB的基本思想是对每个item的回报估计及其置信区间同时建模,然后每次选择回报的估计值与其标准差的和最大的那个item,因此LinUCB在推荐系统中,能够较好地平衡显示用户已经喜欢的某类文章和对其他没怎么看过的类别的文章,从而引导用户对未知类别的探索。
Thompson sampling
假设每个item有一个产生回报的概率p,我们通过不断试验来估计一个置信度较高的概率p的概率分布。如何估计概率p的概率分布呢? 假设概率p的概率分布符合beta(wins, lose)分布,它有两个参数: wins, lose, 每个item都维护一个beta分布的参数。每次试验选中一个item,有回报则该item的wins增加1,否则lose增加1。每次选择item的方式是:用每个item现有的beta分布产生一个随机数b,选择所有item产生的随机数中最大的那个item。
以上各种算法在不同的性能:
2. 多臂老虎机的推荐应用
2.1 冷启动
计算机广告和推荐系统中,有很多问题可以抽象为E&E问题:
- user冷启动:假设一个用户对不同类别的内容感兴趣程度不同,那么我们的推荐系统初次见到这个用户时,怎么快速地知道他对每类内容的感兴趣程度?
- item冷启动:假设资源池有若干新item,怎么知道该给每个用户展示哪个,从而获得最大的点击,同时还能保证每个item得到一定的曝光?
这些都是糖豆在实际线上业务遇到的问题,我们采用 Thompson sampling算法来解决推荐过程遇到的E&E问题。
public class BandItTask {
public void editorLiteVideo(){
// 获得beta 分布
Random r = new Random();
Map<String, Double> map = new TreeMap<String, Double>();
for (Iterator<String> iterator = videos.keySet().iterator(); iterator.hasNext();) {
String vid = iterator.next();
Map<String,String> mab = null;
try{
mab = predis.hgetAll("mab_"+vid);
}catch(Exception e){
mab = new HashMap<>();
logger.error("",e);
}
double win=1.00, lose = 1.00;
if (null == mab || mab.isEmpty()){// 如果还没有lose,win
if (null == items || !items.contains(vid)){ //并且没有给过初始化的sample值,给个初始化值
win = Convert.toDouble(mab.get("win"),(double)r.nextInt(100));
lose = Convert.toDouble(mab.get("lose"),(double)r.nextInt(100));
}
}else{
win = Convert.toDouble(mab.get("win"),win);
lose = Convert.toDouble(mab.get("lose"),lose);
}
BetaDistribution beta = new BetaDistribution(win, lose);
double p = beta.sample();
map.put(vid, p);
logger.debug("editorLiteVideo - for sample, vid :"+vid+", mab :"+mab+", win :"+win+", lose :"+lose+", p :"+p);
}
Logger logger = Logger.getLogger(BandItTask.class);
}
2.2 效果评估
MAB的应用在糖豆不同的推荐数据集和不同用户群体上多次AB测试结果显示,相较仅探索、加权平均分配、阶梯分配等方法,MAB算法的CTR提升了20%~50%。尤其是item和user都是冷启动的场景,能够带来非常显著的提升。
3. 不足与改进
不足:
- 目前我们实现的MAB是batch形式,会带来不必要的累积regret。
- 另外bandit实验数据未能和内容分类结合,形成推荐知识累积闭环。
改进:
- 研究MAB的收敛界,增量更新分布,减少regret
- 研究对比其他contextual bandit