0
我一直在想,人们是如何会为一篇文章点赞的。
这样的模型可以有很多种,而且根据不同的心理动因,基本上可以给出看上去毫不相关的好多不同的种类。
那么,有没有什么是上述这些东西所共有的呢?
或者说,抛开具体的心理动因等具象化因素之后,有没有什么抽象的唯像的范式是可以被保留下来的呢?
更重要的是,这样的范式是否可能回答这样的问题:
如果有人写了一篇新文章,我如何利用已有的点赞数据,来判断什么样的用户会为它点赞,而什么样的用户不会?
嗯,基本上就是因为这类问题,我开始胡诌这篇《点赞动力学》。
我们可以畅想,如果掌握了这样的技术的话,那么一个UGC平台就可以更好地为也难用户推荐他们可能喜欢的文章,而不需要过多的编辑了。
1
点赞的最抽象过程,大概可以这么来描述:
1,所有文章可能的属性构成的集合为T,T中的元素记为T_i,代表了一个可能的属性;
2,一篇文章P具有一个“倾向分布”,记为Q(P,T_i),其取值范围为[0,1];
3,一名读者U具有一个“喜好分布”,记为P(U,T_i),其取值范围为[0,1];
4,对于一篇指定的文章P和指定的用户U,如果存在某个属性t使Q(P,t)>P(U,t)成立,则该用户U会为文章P点赞。
翻译成人话就是:如果一篇文章在某个方面吸引了用户,那用户就会为这篇文章点赞。
这么浅显易懂的道理我居然写了这么多废话,可见唠嗑的本领果然不是盖的。
当然,实际上上面所说的那些分布都是不可知的——甚至于,作者也不知道自己写的文章到底能分到哪些属性,每个属性的Q值又是多少,而读者也不真的知道自己对哪些属性是感兴趣的,这些属性的P值又是多少。
所以,事实上对一个视图回答一开始所提出的问题的平台来说,它所要作的其实是根据每个用户的点赞情况,来反过来逆推上述两类分布P和Q,以及属性集T。
这是问题的第一步。
当我们将T、P和Q都获取后,面对一篇新出现的文章,如何通过少数几个用户的点赞来确定它的Q',并根据这个Q'来推荐给合适的用户群{U}就是第二步的问题了。
2
让我们思考这么一个问题:
如果我们已经每篇文章有哪些用户点赞,以及每个用户对哪些文章点赞,然后我们有了一篇问的文章X,并且已经有一定的用户对其点赞了,我们如何判断这篇文章对那些还没点赞的用户来说,到底是否值得推荐?
有两类方法可以解决这个问题。
一类,我们考虑一个简单的情况,就是只有A和B两个人,总共N篇文章,其中A点赞了P_a篇文章,B点赞了P_b篇文章,其中P_ab篇文章是A和B一起点赞的,那么如果一篇新的文章出现,并且B没有看过,而A已经点赞的话,B看后会点赞的概率就会是P_ab/P_a,而如果A也没有点赞,那么B会点在的概率就是(P_b-P_ab)/(N-Pa)。
基于类似的思路,我们可以通过点赞文章的分布来计算出上面所问的那个问题:一伙人点赞后,另一个人点赞的概率等于P_{所有点赞了的用户+指定用户X}/P_{所有点赞了的用户},其中P_{abc...}表示用户a、b、c等等都点赞了的文章的数量。
这个思路的最大问题在于,随着用户人数的增加,文章数的增加,这个计算量是指数级爆发的。我们大概只能在一定共同圈上做截断,比如只计算到三个人共同点赞的文章——这样所需的计算量已经是用户人数的立方了,很不可取。
而如果计算的共同点赞用户数比较少,那结果就会很不精确。
我们自然可以用各种方法来降低计算量,但所有这些方法都会引入额外的误差,结果就没有保障了。
因此,另一个思路就变得很可行了,那就是分析一篇文章和一个用户的兴趣爱好分布,也就是上一小节中所说的P和Q的分布情况,将用户和文章分类,再分析新文章的分类,以分类为基础做推荐。
这样的思路的最大问题就是,如上所说的分布的分析很麻烦,但好处是,计算量将不会几何级爆炸。
所以,这就是本文最大的兴趣所在了。
3
我们可以认为,每篇文章都隶属于几个特定的类。
一个最自然的类,就是上文中所提到的“属性”了——属性自然就是一种类。
但,当我们是通过用户和文章之间的由点赞而建立起来的分布时,我们并不天然地知道属性是什么,所以只能认为地寻找一些合适的分类,使得在这种分类下,通过上述由属性到分布的过程可以得到一个和已知分布接近的分布。
为此,我们先要给类下一个明确的定义——
如果一篇文章属于类X,而一个用户也属于类X,则该用户有超过一定概率P的可能为该文章点赞。
接下来,我们就需要研究各种不同情况下的点赞分布规律。
无论是由属性决定的还是由类决定的分布,一篇文章p被用户u点赞的概率平均下来都可以被写为:
P(u,p)=1-(1-N_u/T*N_p/T*Q)^T
其中T是属性/类总数;N_u是用户所有的属性/类数,N_p是文章所有的属性/类数,Q是在指定分布模式下在特定属性/类中用户的喜好分布值大于文章的倾向属性值的平均概率——对于开头所用的随机分布来说,就是0.5,对于类来说,就是那个P。
这四个未知数中,前三个都是彻底未知的,而最后的Q则原则上既可以是系统设定值,也可以是一个未知项,比较灵活。
下面来看文章被点赞数的分布,以及用户点赞数的分布,它们将呈现出不一样的分布状态,从而提供更多的信息。
以文章p为例,对一篇确定的文章来说,它被特定用户u点击的概率为:
P(p,N_u)=1-(1-N_u/T*Q)^N_p
其实这个等式就表示全概率1减去特定用户u不会点击该文章p的概率。
因此,这篇文章会被n个人点赞的分布就是:
P(p,n;N_u)=C(n,N_U)*P(p,N_u)^n*(1-P(p,N_u))^(N_U-n)
当然,这个结论是存在问题的,那就是这里我们假定每个用户的P分布都是随机的且相互独立的,而且具有相同的N_u。在现实中,这些条件都无法被满足,只能通过一定的方法做估算,比如可以认为是在某个特定N_u两侧做一定的分布,从而就有:
D(N_x)=C(N_x,T)*(N_u/T)^N_x*(1-N_u/T)^(T-N_x)
从而一篇特定文章被点赞的数分布就是:
Pro(P,n)=Sum(N_x=0~T)[D(N_x)*P(p,n;N_x)]
对于特定用户的点赞文章数分布也有类似的结果。
因此,我们可以通过分析数据库中的点赞情况,分析出T、N_u和N_p,在差一个待定因子Q的情况下——而如果我们建立以类为划分基础的模型的话,那Q就是一个已知的系统因子。
这样,我们原则上就可以通过数据分析来确定一些最大值的系统:T、N_u和N_p
这里T是类数,N_u是用户感兴趣类的平均数,而N_p是文章所述类的平均数。
接下来,就是最有趣的部分了:通过如上参数来逆向推测出每个类都有哪些文章和用户。