标签是一种用来描述信息的关键词,标签可以用来描述物品的客观属性、也可以描述用户对物品的兴趣喜好。在推荐系统中,我们可以通过用户消费物品的标签,计算用户的兴趣模型,进行更好的精准推荐。
标签的来源
从标签的来源来看,一般可以分为三种:
①所有者给物品给物品打标签
②专家给物品打标签
③普通用户给物品打标签。
所有者一般在物品发布时给物品打标签,专家的标签通常是由平台方发起,组织人来完成物品标签,这两种方式适合标记区分物品客观属性的标签。;比如PGC内容发布者可以选择自己内容的分类是属于娱乐、还是属于军事;电商平台上货时,会选择衣服的颜色、尺码等属性;音乐平台会有专人对音乐进行标记作者、发行时间、风格等信息
而用户的标签,一般是在消费该物品后,描述当前用户对物品产生的主观感受、认知的标签;比如资讯平台看完文章用户可以标记文章是否好看;音乐软件听完一首歌,用户可以认为这首歌是伤感的或是安静的。
基于标签的推荐方式
前面说到,标签可以帮助我们进行更好的精准推荐,本质上是标签+协同推荐的方式,大概思路如下:
①用户喜欢标签a,推荐与标签a相似的标签b的物品
②用户A与用户B兴趣模型相似,给用户A推荐用户B喜欢的标签a的物品
③用户A喜欢的物品包含标签a,推荐其他包含标签a的物品
④用户A喜欢的物品包含标签a,推荐和a相似的标签b的物品
⑤组合以上方法进行推荐,可对每种方法给予不同权重
不同的用户场景,会有不同方式的偏向性,首先应该是定义喜欢的方式不同,比如新闻内容平台,新闻不涉及下单,阅读即为喜欢,且新闻内容用户需要一定的多样性,如果直接使用第三种推荐方式,必然会导致内容单一,用户很快就会厌倦;但在另外一些场景下,比如某些特定群体的标签,如“女性”标签,就可以使用这种方式;在确认推荐策略时,要考虑用户群体、当前推荐的使用场景,但是具体的效果是一个长期优化过程,一般算法调整上线后会有7天左右的数据波动期,遵循AB测的原则(搭建单一变量环境),在7天后观看数据可以获得相对准确的效果评估
标签的优化
除了标签推荐策略的调整外,标签的优化也是优化标签推荐效果的重要途径。我们可以通过以下几种方式提升标签的准确性、喜好明确性:
①尽量提供能反映用户对物品看法、喜好的标签,让用户选择;比如对于一首歌曲,歌手、发行年份、专辑这种属于客观性的标签,安静、伤感这种时能够反映用户对物品看法的标签。这种主管标签的收集,有利于我们更精准的建立用户兴趣模型
②提升标签兴趣的准确性 ;利用标签进行建模,会给热门标签带来较大权重,长尾的状态下用户兴趣模型可能准确度会下降,可以利用TF-IDF降低热门标签的权重
③标记标签相似度,根据标签关联关系进行标签拓展;在没有标签相似度的时候,和用户A相关的所有标签,只有A的直接喜好标签,标记相似度后,用户A的喜好标签种可以对具有相似度的标签也进行参考
④清理无用标签,对于一些高词频的停止词,表述差异的同义词进行合并,提升标签准确性
注:TF-IDF:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。