说到NDCG就需要从CG开始说起。
CG(cumulative gain,累计增益)可以用于评价基于打分/评分的个性推荐系统。
假设我们推荐k个物品,这个推荐列表的
计算公式如下:
表示第i个物品(i的取值范围为从1~k)的相关性或者评分。
假设我们共推荐k个电影,可以是用户对第i部电影的评分。
比如豆瓣给用户推荐了五部电影:M1,M2,M3,M4,M5,
该用户对这五部电影的评分分别是 :5, 3, 2, 1, 2
那么这个推荐列表的CG等于
CG没有考虑推荐的次序,在此基础之后我们引入对物品顺序的考虑,就有了DCG(discounted CG),折扣累积增益。
公式如下:
比如豆瓣给用户推荐了五部电影:M1,M2,M3,M4,M5,
该用户对这五部电影的评分分别是:5, 3, 2, 1, 2
那么这个推荐列表的DCG等于
DCG没有考虑到推荐列表和每个检索中真正有效结果个数,所以最后我们引入NDCG(normalized discounted CG),顾名思义就是标准化之后的DCG。
其中IDCG是指ideal DCG,也就是完美结果下的DCG。
继续上面的例子,如果相关电影一共有7部M1,M2,M3,M4,M5,M6,M7
该用户对这七部电影的评分分别是
5, 3, 2, 1, 2 , 4, 0
把这7部电影按评分排序
5, 4, 3, 2, 2, 1, 0
这个情况下的完美DCG是
所以:
NDCG是0到1的数,越接近1说明推荐越准确。