一、书籍介绍
《推荐系统实践》项亮编著,陈义、王益审校,人民邮电出版社。
本篇读书笔记主要针对该书的第三章内容。
二、结构概览
三、主要内容
大量的用户行为数据是推荐系统的重要组成部分和先决条件。
1.冷启动问题简介
(1)用户冷启动:给新用户做个性化推荐
(2)物品冷启动:将新物品推荐给感兴趣的人
(3)系统冷启动:新开发的系统(没有用户)
2.利用用户注册信息——解决用户冷启动问题
(1)如利用用户注册时填写的年龄、性别等数据,主要包含以下三种:
a)人口统计学信息
b)用户兴趣描述-让用户描述他们的兴趣
c)从其他网站导入的用户站外行为数据:比如用新浪微博等账号登录,可以在得到用户同意的情况下获取用户的一些行为数据和社交网络数据。
基于注册信息的个性化推荐流程基本如下:
a)获取用户的注册信息;b)根据用户的注册信息对用户分类;c)给用户推荐他所属分类中用户喜欢的物品。
(2)算法:
核心问题在于计算每种特征的用户喜欢的物品。
3.选择合适的物品启动用户的兴趣——解决用户冷启动的问题
给用户提供一些物品,让用户反馈他们对这些物品的兴趣。
用来启动用户兴趣的物品需要具有的特点:
a)比较热门;b)具有代表性和区分性;c)启动物品集合需要多样性
4.利用物品的内容信息——解决物品冷启动问题
利用向量空间模型,将物品表示成一个关键词向量,计算物品内容的相似度。
可以采用余弦相似度公式计算相似度,但这种算法时间复杂度很高,在实际应用中,可以通过建立关键词-物品到排表加速这一计算过程。
使用内容相似度的内容过滤算法,由于这种算法忽略了用户行为,从而也忽视了物品的流行度以及用户行为中所包含的规律,所以准确率和召回率较低,但结果的新颖度比较高。但这也不是绝对的,如果用户的行为强烈受某一内容属性的影响,那么内容过滤算法也可以在精度上超过协同过滤算法。——如果能融合内容过滤算法和协同过滤算法,效果更好。
5.发挥专家的作用——解决系统冷启动问题
专家对各个维度进行标注。
除以上方法外,也可以提供先提供非个性化的方案,如热门排行榜,等到用户数据收集到一定的时候,再切换为个性化推荐。
往期推荐:利用用户数据——《推荐系统实践》第二章