推荐系统（二）：基于用户的协同过滤算法

一、基本原理

协同过滤中另一种经典的方法就是基于用户的协同过滤方法，其思想是先计算用户u与其它用户的相似度，然后选取和u最相似的几个用户，把他们买过的产品推荐给u。主要也可分为两步：(1)建立物品-用户倒排表，如图2的上半部分所示；(2)建立用户相似度矩阵，如图2的下半部分所示。

用户购买记录

物品-用户倒排表

基于用户的协同过滤算法的相似度的计算方法与基于物品的计算方式相同。对于与用户u相似度接近的K个用户，遍历他们有过正反馈的物品，计算出用户u对每一个物品的感兴趣程度:
$p(u,i)=\sum_{v \in S(u,K)\cap N(i)}w_{uv}r_{vi}$

其中， $S(u, k)$ 包含和用户u兴趣最接近的K个用户， $N(i)$ 是对物品i有过行为的用户集合， $w_{uv}$ 是用户u和用户v的相似度， $r_{vi}$ 表示用户v对i的兴趣，然后根据感兴趣程度由高到低确定N个推荐给用户u的物品。

基于用户协同和基于物品协同的区别

（1）从推荐场景的角度考虑
ItemCF适用于购物网站，其中用户的数量远多于物品的数量，物品数据相对稳定，相似度计算量较小，且不必频繁更新；UserCF更适用于新闻、博客等社交网络，其内容更新非常频繁，即UserCF更注重社会化，而ItemCF更注重个性化。
（2）从多样性的角度考虑
即覆盖率，指推荐系统能否给用于提供多种选择。由于UserCF更倾向推荐热门物品，ItemCF的多样性远好于UserCF，容易发现并推荐长尾里的物品。
（3）从冷启动的角度考虑
UserCF中在新用户对很少物品产生行为后，不能立即对他进行个性化推荐，即暂时无法找到兴趣相投的用户。ItemCF中新用户只要对一个物品产生行为，就可以给他推荐和该物品相关的其它物品。

二，算法实践

采用GroupLens提供的MovieLens数据集，http://www.grouplens.org/node/73。本章使用中等大小的数据集，包含6000多用户对4000多部电影的100万条评分。该数据集是一个评分数据集，用户可以给电影评1-5分5个不同的等级。本文着重研究隐反馈数据集中TopN推荐问题，因此忽略了数据集中的评分记录。

1、包的加载与变量定义

该部分定义了所需要的主要变量，集合采用字典形式的数据结构。

import random
import math 
from operator import itemgetter

class UserBasedCF():
    def __init__(self):
        self.n_sim_user = 20
        self.n_rec_user = 10
        
        self.train = {}
        self.test = {}
        
        self.user_sim_matrix = {}
        self.movie_count = 0

2、数据加载

读取原始CSV文件，并划分训练集和测试集，训练集占比87.5%，同时建立训练集和测试集的用户字典，记录每个用户对电影评分的字典。

  def get_dataset(self,filename,pivot=0.875):
        train_len,test_len = 0,0
        random.seed()
        for line in self.load_file(filename):
            user,movie,rating,timestamp = line.split(',')
            if random.random()<pivot:
                self.train.setdefault(user,{})
                self.train[user][movie] = rating
                train_len += 1
            else:
                self.test.setdefault(user,{})
                self.test[user][movie] = rating
                test_len += 1
        print('Load dataset success!')
        print('train set:%s, test set:%s'% (train_len,test_len))
        
    def load_file(self,filename):
        with open(filename,'r') as f:
            for i,line in enumerate(f):
                if i==0:
                    continue
                yield line.strip('\r\n')

3、计算相似度矩阵

第一步建立电影-用户倒排表；第二步计算矩阵C，C[i][j]表示同时喜欢电影i和j的用户数，并考虑对活跃用户的惩罚；第三步计算用户间的相似性矩阵。

    def calc_user_sim(self):
        movie_user = {}
        for user,movies in self.train.items():
            for movie in movies:
                if movie not in movie_user:
                    movie_user[movie] = set()
                movie_user[movie].add(user)
        print('Build movie-user table success!')
        self.movie_count = len(movie_user)
        
        for movies,users in movie_user.items():
            for u in users:
                for v in users:
                    if u == v:
                        continue
                    self.user_sim_matrix.setdefault(u,{})
                    self.user_sim_matrix[u].setdefault(v,0)
                    self.user_sim_matrix[u][v] += 1/math.log(1+len(users))
        print('Build user co-rated movies matrix success!')
        
        for u,related_users in self.user_sim_matrix.items():
            for v,count in related_users.items():
                self.user_sim_matrix[u][v] = count / math.sqrt(len(self.train[u])*len(self.train[v]))
        print('Calculate user similarity matrix success!')

4、对用户进行推荐

针对目标用户U，找到K部相似的电影，并推荐其N部电影，如果用户已经看过该电影则不推荐。

      def recommend(self,user):
            K = self.n_sim_user
            N = self.n_rec_user
            rank = {}
            watched_movies = self.train[user]
            

            for v,wuv in sorted(self.user_sim_matrix[user].items(),key=itemgetter(1),reverse=True)[:K]:
                for movie,rvi in self.train[v].items():
                    if movie in watched_movies:
                        continue
                    rank.setdefault(movie,0)
                    rank[movie] += float(wuv)*float(rvi)
            return sorted(rank.items(),key=itemgetter(1),reverse=True)[0:N]

5、评估指标的计算

产生推荐并通过准确率、召回率和覆盖率进行评估。

def evaluate(self):
    print('Evaluateing starting ...')
    N = self.n_rec_movie
    hit,rec_count,test_count = 0,0,0 
    all_rec_movies = set()
    for i,user in enumerate(self.train):
        test_movies = self.test.get(user,{})
        rec_movies = self.recommend(user)
        for movie,w in rec_movies:
            if movie in test_movies:
                hit += 1
            all_rec_movies.add(movie)
        rec_count += N
        test_count += len(test_movies)
    precision = hit/(1.0*rec_count)
    recall = hit/(1.0*test_count)
    coverage = len(all_rec_movies)/(1.0*self.movie_count)
    print('precision=%.4f, recall=%.4f, coverage=%.4f'%(precision,recall,coverage))

结果如下所示，由于数据量较大，计算速度较慢，耐心等待即可。

Load dataset success!
train set:875020, test set:125188
Build movie-user table success!
Build user co-rated movies matrix success!
Calculate user similarity matrix success!
Evaluateing starting ...
precision=0.2322, recall=0.1120, coverage=0.2931

参考资料

[1]. https://blog.csdn.net/m0_37917271/article/details/82498308
[2]. 推荐系统与深度学习. 黄昕等. 清华大学出版社. 2019.
[3]. 推荐系统算法实践. 黄美灵. 电子工业出版社. 2019.
[4]. 推荐系统算法. 项亮. 人民邮电出版社. 2012.
[5]. 美团机器学习实践. 美团算法团队. 人民邮电出版社. 2018.

新家孟城口，古木余衰柳。来者复为谁，空悲昔人有。——王维《辋川集·孟城坳》

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,270评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,489评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,630评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,906评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,928评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,718评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,442评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,345评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,802评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,984评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,117评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,810评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,462评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,011评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,139评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,377评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,060评论 2赞 355