《推荐系统实践》读书笔记(第一章、第二章)

好的推荐系统的几大原则

7.信任度:

     提高推荐系统信任度主要有两种方法:1.增加透明度(transparency),主要办法是提供解释(例子是大众点评首页推荐“好友XX赞过”,“最近收藏过”)。只有用户认同推荐机制才会提高信任度。2.考虑用户的社交网络信息,并利用好友进行推荐解释。(Epinion在每条用户评论右侧都显示了评论者的信息,并且让用户判断信任或加入黑名单,尽量推荐他信任的其他用户评论过的物品)。

8.实时性:

     推荐系统的实时性包括两个方面:1.推荐系统需要实时地更新推荐列表来满足用户新的行为变化(可以用推荐列表的变化速率来评测);需要能够将新加入系统的物品推荐给用户(可以用用户推荐列表中多大比例的物品是当天新加的来评测)。

9.健壮性

     健壮性(robust)指标衡量了一个推荐系统抗击作弊的能力,抗击算法攻击的能力。

     很多作弊方法,最著名的要数行为注入攻击(profile injection attack),“购买A商品的用户经常购买其他商品”,注册很多账号,这些正好同时购买A和自己的商品,评分系统(淘宝,雇佣水军刷好评)。 

       算法健壮性的测评主要利用模拟攻击:用算法给出的注入噪声前后的数据集算出的推荐列表的相似度来评测(相似度越高健壮性越好)。

      提高系统健壮性的方法除了算法之外,还有:(1)设计推荐系统尽量使用代价比较高的用户行为(比如使用用户购买行为而不是浏览行为)(2)使用数据前用攻击检测对数据进行清清理。

10.商业目标:

        不同的网站具有不同的商业目标,推荐系统目的除了满足用户发现内容的需求,也需要利用推荐系统加快实现商业上的指标。

对于可离线优化的指标,书中给听的看法是:

最大化预测准确度的情况下,覆盖率>A,多样性>B,新颖性>C,其中A/B/C的取值应该视不同的应用而定。

1.1.3  测评维度

        增加测评维度的目的就是知道一个算法在什么情况下性能最好。

一般来说,评测维度分为如下三种:

用户维度:用户的人口统计学信息、活跃度以及是不是新用户等。

物品维度:物品的属性信息、流行度、平均分、是否是新加入物品。

时间维度:包括季节,是工作日还是周末,是白天还是晚上等。

第二章  利用用户行为数据

       实现个性化推荐最理想的情况是用户能在注册的时候告诉我们他们喜欢什么,但这种方法有3个缺点:1.自然语言处理技术在当下很难提取出用户来描述兴趣的自然语言;2、用户的兴趣是不断变化的,但用户不会不停地更新兴趣描述;3.很多用户并不能准确表达自己喜欢什么。

       在推荐系统诞生之前用户行为数据最知名的例子是被利用于排行榜。用户行为不是随机的,而是蕴含很多模式。购物车是分析很多电子商务网站,甚至传统零售业务的核心数据分析任务。

       协同过滤算法:用户可以齐心协力,通过不断地和网站互动,使得自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。

2.1  用户行为数据简介

2.2 用户行为分析

 2.2.1  用户活跃度与物品流行度的分布

         

分布公式

     其中第一个公式代表对k个物品产生过行为的用户数,第二个代表被k个用户产生过行为的物品数,这两个函数都满足长尾分布。

2.2.2  用户活跃度和物品流行度的关系

      不活跃的用户要么是新用户,要么是只来过网站一两次的老用户。一般认为,新用户对网站还不熟悉,只能点击首页的热门物品,而老用户会逐渐开始浏览冷门的物品。用户越活跃,越倾向于浏览冷门的物品。

       仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法,学术界提出了很多方法,比如基于邻域的方法(neighobrhood-based)、隐语义模型(latent factor model)、基于图的随机游走算法(random walk on graph)等。在这些方法中,最著名的要数基于邻域的方法。

基于邻域的协同过滤算法    这种算法给用户推荐和他兴趣相识的其他用户喜欢的物品。

基于物品的协同过滤算法     这种算法给用户推荐和他之前喜欢的物品相似的物品。

2.3实验设计与算法评测

       本章采用研究隐反馈数据集中的TopN推荐问题,也就是预测用户会不会对某部电影评分。

2.3.2 实验设计

操作步骤:1.将用户行为数据集合按照均匀分布随机分成M份,挑选一份作为测试集,将剩下的M-1份作为训练集。

2.在训练集上建立用户兴趣模型,并在测试集上对用户行为进行预测,统计出相应的测评指标。

3.为了保证评测指标并不是过拟合的结果,需要进行M次实验,并且每次都使用不同的测试集。然后将M次实验测出的评测指标的平均值作为最终的评测指标。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,585评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,283评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,760评论 0 324
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,461评论 1 266
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,280评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,268评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,656评论 3 385
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,322评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,629评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,691评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,445评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,299评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,694评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,982评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,244评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,642评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,829评论 2 335

推荐阅读更多精彩内容