“推荐系统评测方法及指标 ”详解

“好的推荐系统不仅仅能够准确预测用户的行为,而且能够扩展用户的视野,帮助用户 发现那些他们可能会感兴趣,但却不那么容易发现的东西。同时,推荐系统还要能够帮助商家将 那些被埋没在长尾中的好商品介绍给可能会对它们感兴趣的用户。”项亮在其《推荐系统实践》一书中如是说。

然而,明白一个好的推荐系统长什么样子还远远不够,有一套能与之对应的测评方法和指标才是关键!于是,小编在借鉴项亮论述的基础上,特此整理了相关的测评方法及测评指标,以供大家学习和借鉴。

三种推荐系统实验方法

1、离线实验(offline experiment)

实施步骤:

(1)将从日志系统收集来的用户行为数据,生成为一个标准的数据集;

(2)按照一定的规则,将数据集分成训练集和测试集两个部分;

(3)在训练集上训练用户兴趣模型,在测试集上进行测试;

(4)利用定义好的离线指标评测算法,在测试集上进行结果预测。

优点:所有实验在数据集(从系统日志中提取而来)上完成,对实际系统和用户参与依赖度低,方便快捷;

缺点:对商业上关注的指标获取能力弱;

2、用户调查(user study)

用户调查,是一种通过分析被调查用户(真实的用户),在被测推荐系统上完成任务时的行为和回答问题的情况,来了解测试系统性能的一种实验方法。它旨在为上线测试提供准备工作,以防范上线测试所潜在的降低用户满意度的问题。

优点:在离线测试解决不了的“用户主观感受相关指标”的获取上,有着优越的性能;风险易控。

缺点:实验成本高,难组织大规模测试;双盲实验设计困难,影响测评结果。

3、在线实验(online experiment)

这里的在线实验方法,偏指AB测试方法。

实施步骤:

(1)通过一定规则将用户随机分组;

(2)对不同组的用户采用不同算法;

(3)统计不同组用户的不同评测指标,以比较不同的算法。

优点:公平获得不同算法实际在线的性能指标,包括商业上关注的指标。

缺点:试验周期较长;设计AB测试系统的工程量大,且流量切分设计一般必不可少。

十个推荐系统测评指标

1、 用户满意度

“用户满意度”测评指标,适用的实验方法为用户调查法与在线测试法。

用户调查法设计要点:将用户对被测推荐系统的满意程度分为多个层次,并照顾到用户各方面感受,为用户给出准确答案创造环境。

在线测试法设计要点:根据不同情境,区别“购买率”“用户反馈按钮统计”“用点击率”“停留时间”“转化率”等统计指标的设计,以度量用户满意度。

2、 预测准确度

预测准确度,是一个最重要、也存在时间最长的,度量推荐系统或者推荐算法预测用户行为能力的,在线测试指标,并严格遵循离线测试实验的实施方法。

根据研究方向不同,预测准确度可细分为“ 评分预测 ”“ TopN推荐 ”两类实现方式,且后者更符合实际应用需求。

3、 覆盖率

覆盖率,一种衡量推荐结果多大程度覆盖全部商品的度量指标,对于长尾发掘具有重要的意义。

常用度量方法有三种:

(1)计算所有被推荐商品占商品总数的比重

(2)信息熵

(3)基尼系数

4、 多样性

多样性,即推荐算法在兼顾用户长期稳定兴趣的同时,覆盖某一刻用户不同兴趣的能力,描述了推荐列表中物品两两之间的不相似性。

一个好的推荐系统,要求能同时兼顾多样性的要求,以及用户的主要兴趣。比如,爱看文艺片的我,你也识别我个别时候想看鬼故事的冲动。

5、 新颖性

新颖性,推荐用户没听说过的物品的能力。

在网站中实现新颖性的最简单办法是,把那些用户之前在网站中对其有过行为的物品从推荐列表中过滤掉。

6、 惊喜度

惊喜度,新颖推荐得到用户好评的测评指标。它基于新颖性,却高于新颖性。

惊喜度,通过定义推荐结果和用户历史偏好的相似度,及其用户对推荐结果的满意度得以实现。

7、 信任度

信任度,基于信任关系而使相同推荐结果获得不同反应的测评指标。比如,好友推荐比广告推荐更值得信赖。

度量系统的信任度,只能通过问卷调查的方式得以实现;提高系统的信任度,则可以通过增加推荐系统的透明度,以及利用用户社交网络中的好友信息构建推荐得以实现。

8、 实时性

时效性,度量在规定时间内将时效性强的物品及时推荐给用户的评测指标。

9、 健壮性

健壮性,度量推荐系统抗攻击能力的评测指标。

10、 商业目标

商业目标,度量推荐系统服务商业盈利目标的能力的评测指标。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容

  • -- 原创,未经授权,禁止转载 2017.11.15 -- 对于推荐系统,本文总结内容,如下图所示: 文章很长,你...
    rui_liu阅读 42,932评论 14 256
  • 这篇文章的技术难度会低一些,主要是对推荐系统所涉及到的各部分内容进行介绍,以及给出一些推荐系统的常用算法,比起技术...
    我偏笑_NSNirvana阅读 12,074评论 5 89
  • 此文是根据《推荐系统实践》部分整理而来。 PART 1 首先,最核心的问题是 什么才是好的推荐系统? 好的推荐系统...
    醉起萧寒阅读 2,627评论 8 12
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,647评论 18 139
  • 目录: 推荐系统是啥 目前比较成功的推荐系统 如何评判一个推荐系统的好坏 正文 什么是推荐系统 信息过载的时代 因...
    TryEnough阅读 974评论 0 3