06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型

02 主题模型 - SVD矩阵分解、LSA模型
03 主题模型 - LSA案例
04 主题模型 - NMF
05 主题模型 - 坐标轴下降法

pLSA 的另一个名称是Probabilistic Latent Semantic Indexing(pLSI),基于概率的潜在语义分析模型
pLSALSA用到的东西一模一样。参考:《 LSA,pLSA原理及其代码实现

假定在一篇文档d中,主题c来表示,词语w来表示,则有下列公式:

和LSA一样用到这个式子

p(w,d) 是文挡词语联合发生的概率。
根据贝叶斯网络推导出:d→c→w <=> d→w; 所以 p(w|d,c) <=> p(w|c) ;
以上算是巩固一下PLS算法的思想。


在PLA中,根据一篇文档去抽出一篇主题的时候,从概率角度来说,我们没有考虑先验条件。在PLA中,我们认为所有主题出现的概率都是一个确定的数字。即我们现在文章中,苹果公司主题文章出现概率是0.3,NBA主题是0.5,其他分类出现的概率是0.2。所有分类出现的概率总和是1。也就是说:我们人为给定了文档后出现的概率分布。

但是我们没有考虑到先验条件的情况,比如:苹果公司发布新的手机了。NBA休赛期到了。
在这种先验条件下,之前提到的苹果公司主题、NBA主题这些文章出现的概率应该会相应得发生变化
苹果公司主题出现概率 ↑;NBA主题出现概率 ↓


仔细分析p(w,d)的完整生成过程:
p(w,d) 是文挡词语联合发生的概率。
我们先从文档集合中选择第m个文档,即 p(dm)
再从主题集合中选择第k个主题,即p(ck)
再从词语集合中选择第n个词语,即p(wn)
p(w,d) = p(dm) × p(ck | dm) × p(wn | ck)
这是一个完整的生成过程,而事实上,我们只能看到 p(w,d),观测不到ck的值。

所以我们想建立一个似然函数。

对数似然

p(dm)抽到第m篇文档中的情况,p(dm,Wn)且抽到第n个词的概率,考虑从第1个文档到第m个文档,以及每个文档中第1个到第n个词的联合出现的情况。
再分别乘以这些词出现的次数。最后计算出的值就是我们建立的似然函数的值。

因为pLSA本质上是基于词袋法或TF-IDF,我们是基于词与词之间是否独立的,但是没有考虑词与词之间出现的先后顺序。 这是词袋法和TF-IDF的核心假设。由于词与词之间是互相独立的,我们才能求每篇文章中每个词出现的联合概率,最终生成这样的似然函数。

因为通过似然函数暴露了隐含变量ck,所以之后的求解思路是然后通过EM算法进行求解。最终得到了我们想得的隐含变量的值,帮助我们求得主题分类。

pLSA的不足:

1、概率模型不够完备,在文档层面上没有提供一个完善的概率模型。使得pLSA无法成为一个好的模型。我们只能在确定了文档的概率分布后才能对模型进行随机抽样。

2、随着文档和词语个数的增加,模型的复杂度也会增加得很快。

07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta\Dirichlet分布

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,124评论 6 523
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,453评论 3 404
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,386评论 0 368
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,136评论 1 301
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,142评论 6 400
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,593评论 1 315
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,958评论 3 429
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,944评论 0 279
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,477评论 1 324
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,512评论 3 346
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,639评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,227评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,971评论 3 340
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,397评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,550评论 1 277
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,203评论 3 381
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,713评论 2 366

推荐阅读更多精彩内容