新闻推荐(6):User Modeling with Click Preference and Reading Satisfaction for News Recommendation

前言

摘要

用户兴趣建模对于准确的新闻推荐至关重要。现有的新闻推荐方法通常从新闻的点击行为来推断用户的兴趣。

然而,用户可能会因为被新闻标题所吸引而点击一篇新闻文章,但是在阅读后可能对其内容不满意。

在许多情况下,用户在点击新闻页面后会迅速关闭页面。本文提出从新闻标题的点击行为和新闻内容的阅读行为两个方面建立用户兴趣模型。

这个背景问题与前天分析的一篇HyperNews很相似,那个引入了用户阅读新闻的时长这一数据特征,来反映用户对新闻真实喜好情况//www.greatytc.com/p/c6add0893e8f

更具体地说,文章提出个性化的阅读速度指标来衡量用户对新闻内容的满意度。从用户阅读的新闻内容以及他们对这些新闻的满意程度,来学习嵌入,进行用户对新闻内容的兴趣建模。此外,我们从点击的新闻标题学习另一个用户嵌入,建模对新闻标题的偏好

将这两种用户嵌入组合成一个统一的用户表示,用于新闻推荐。我们使用基于用户行为的新闻标题点击预测和基于新闻内容的满意度预测两个监任务来训练用户表征模型,使得模型能够推荐不仅可能被点击,而且也具有用户满意的内容的新闻。

引言

用户通常根据新闻标题来做出点击决定。然而,由于新闻标题通常很短,而且它们浓缩的信息非常有限,甚至很嘈杂(例如,标题党/clickbaits) ,基于新闻标题的点击行为可能不一定能表明用户的兴趣。在许多情况下,用户不满意点击新闻的内容,并迅速关闭新闻页面。

例如,上图所示,大多数用户在不到20秒的时间内关闭该新闻页面,这意味着该新闻的内容对于许多点击它的用户来说并不具有吸引力。因此,根据用户的新闻点击行为来建立用户兴趣模型可能不够准确。

这样的分析简洁易懂,也是MASR的论文的优点

除了点击行为外,用户还具有新闻阅读行为,是提供用户对新闻内容是否满意的重要信息。整合阅读行为的一个自然的方法是使用用户花在阅读新闻内容上的时间,即停留时间(dwell time )

在新闻页面上停留时间长通常意味着对新闻内容的兴趣和满意度高于短停留时间。然而,新闻文章通常在内容长度上有很大的差异,较长的文章通常需要更多的时间来阅读。因此,绝对停留时间可能不是建模阅读满意度的最佳时机。停留时间的直接改进是兼顾停留时间和新闻内容长度的阅读速度。

阅读速度也是比较容易理解的 然而,如上图所示,不同的用户在阅读新闻时可能有不同的习惯,他们的平均阅读速度有很大的差异。因此,对于满意度建模而言,阅读速度也可能不是最佳的。

本文提出了一种新闻推荐的用户建模方法,从新闻点击行为和新闻阅读行为两方面对用户的兴趣进行建模

  1. 首先,提出了一个个性化的阅读速度度量标准来衡量用户对新闻内容的阅读满意度,该度量标准是基于用户的阅读停留时间、新闻内容长度和平均历史新闻阅读速度来计算的。
  2. 利用内容满意度注意力模型来从用户历史阅读的新闻内容中学习用户嵌入, 在新闻内容的兴趣建模中考虑用满意度。
  3. 利用用户点击的新闻标题学习另一个用户嵌入,来建模其在新闻标题中的点击偏好
  4. 我们通过一个行为注意力网络将这两种用户嵌入合成为一个统一的新闻推荐表示。
  5. 通过两个监督任务来训练模型,即基于新闻标题的点击预测和基于新闻内容的满意度预测

简言之,同时考虑用户受标题影响的点击行为,同时考虑用户对新闻内容的满意情况,两个任务联合训练

相关工作

用户满意度建模

个性化在线服务中的用户满意度建模对于更好地理解用户偏好具有重要意义。一些方法基于用户给出的评分来建立用户满意度模型。然而,在搜索和网页浏览等许多情况下,缺少用户评分等明确的反馈

因此,许多方法基于隐式反馈建立用户满意度模型,比如用户停留时间 。例如,Kim 等人[2014]根据浏览停留时间和显示网页的主题来预测用户对搜索引擎的满意度。zhou[2018]联合预测用户点击的概率和停留时间来考虑推荐系统中的用户满意度。

然而,驻留时间可能会受到用户特性和显示内容的严重影响,这可能不是最佳的模型用户满意度。也有一些研究采用其他类型的隐式反馈来建立用户满意度模型。例如,诸如阅读速度、阅读比率、滚动间隔等因素已被证明与用户满意度相关。此外,用户行为的上下文,例如移动和点击的顺序模式也可能与用户满意度有关[ Mehrotra,2017]。

然而,不同用也可能有不同的使用习惯,不同用户的这些因素也可能有不同的相关性与满意度。与这些方法不同的是,我们提出在用户兴趣建模和模型训练中使用个性化的阅读速度来建模用户满意度。

模型介绍

总体框架如下图所示:

满意度建模

新闻内容的长度可能会影响新闻阅读的停留时间,直接利用停留时间进行满意度建模是不准确的。因此,用阅读速度来结合驻留时间和内容长度的信息可能更为合适。

新闻阅读的停留时间t_i,内容长度表示n_i。然后计算这条新闻的阅读速度$ v_i = n_i /t_i。然而,阅读速度仍然不足以准确地模拟满意度,因为用户由于不同的阅读习惯,在阅读速度上存在差异。因此,我们建议通过个性化阅读速度来衡量用户的满意度,使用阅读速度与该用户的平均历史阅读速度的比率。

害,这不就是比例么

用户建模

1. 内容满意度注意力模块

取用户近期看过的新闻内容,由于新闻主题、新闻内容质量等特点,不同新闻内容在提取用户兴趣方面的信息性是不同的。因此,我们利用内容注意力,以选择性的方式从以前阅读的新闻内容中学习用户表征。将新闻内容的表示向量表示为
\mathbf{d}_i^c
,内容注意力权重计算如下:

为了将用户满意度引入到用户兴趣建模中,我们提出利用满意度关注度来帮助用户识别满意的新闻内容。为了计算新闻内容的满意度注意力,我们首先将其实值个性化阅读速度
\hat{v}_i
映射为一个离散变量
个人理解:就是把速度值变成整数,可以用来构建嵌入索引,每个速度区域可以对应一个嵌入向量

然后,我们使用\hat{v}_i 的嵌入通过一个线性映射来生成注意力查询向量\mathbf{q}_i。最后,基于满意度的注意力权重 计算如下:

最后结合满意度和新闻内容的用户表示为:

2. 标题注意力模块

与前面的操作相似,都是通过注意力机制做信息的提取与聚合:

3. 行为注意力模块

通常点击和阅读行为在表达用户偏好方面有不同的重要性。例如,如果一个用户浏览大多数新闻非常快,但仔细阅读了一些新闻文章,这个用户的阅读行为可能比点击行为更重要。因此,使用一个行为注意网络,形成统一的用户。

常规操作,名字起的倒挺好的

文本编码

用来基本的新闻标题/内容编码。与Transformer 的结构很相似,考虑位置编码,经过多头自注意力模块,最后再通过一个整合注意力,得到一句话/文本的嵌入表示。文章内容应该很长,处理超长的文本,这样的结构其实不太适用呀;应该是实验中做了文本截取

点击与满意度预测

点击概率和满意度都是就是一个点积的计算

最后的Loss就是两个任务的相加,点击率就是一个N+1路的LogLoss,满意度预测就是一个回归任务,定义成绝对值误差:

实验情况

整体效果对比如下:

此外论文还进行多组对比实验,分析了满意度模型和不同注意力模型的作用

此外,论文可视化来自随机选择的用户的历史点击新闻的满意度关注度权重和内容关注度权重,包括满意度建模和不满意度建模。结果下图所示。从可视化结果中,我们发现内容注意缺乏满意度信号可能是不准确的。例如,第五条新闻被赋予了很高的注意力权重,但是用户在关闭它之前阅读这条新闻的内容非常快,这可能是一个失望的迹象。因此,仅仅根据新闻点击量来建立用户兴趣模型是不够的。在考虑用户满意度的基础上,满意度注意机制可以选择用户更仔细阅读的新闻,内容注意机制也可以更关注用户满意的新闻。研究结果表明,建立阅读满意度模型有利于更准确地建立用户兴趣模型,并且可以有效地提高用户的阅读满意度

总结

这篇工作最大的创新点在于引入满意度这一概念,并利用阅读速度来实现满意度建模,并把其编码到用户兴趣建模中。通过满意度预测和点击率预测两个任务来训练推荐模型,尽管满意度并非新概念,但这篇工作总体上将这个点分析和利用的比较透彻。 与前文提到的HyperNews//www.greatytc.com/p/c6add0893e8f从结构上有很大的相似之处,但这篇工作考虑地更加全面,直接考虑到阅读速度等与用户对新闻内容的满意度情况。当然这点还是比较依赖数据,数据集里面要有停留时长/阅读时长这个属性才能建模。。。

END

如果觉得有用,欢迎点赞关注赞赏,若对推荐感兴趣欢迎评论区/私信交流~~~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,265评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,078评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,852评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,408评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,445评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,772评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,921评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,688评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,130评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,467评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,617评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,276评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,882评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,740评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,967评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,315评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,486评论 2 348