随机森林、EM、HMM、LDA

随机森林(Random Forest)是一种分类和回归算法,它包含了多个决策树,形成一个森林,随机森林的类别是所有决策树分类回归结果的众数决定。

由于它优点很多,适应比较广泛.

1、能够处理高维数据,不用做特征选择,自动选出那些特征重要。

2、训练速度快,分类精度高。

3、能检测到特征之间的相互影响。

4、不会产生过拟合。



EM 期望最大化(Expectation-Maximization),也叫最大似然估计。它是一种参数估计方法。

基本思想是:参数的取值应该是使随机样本出现的概率最大。因此如果我们知道样样本的概率分布,就可以通过求使概率分布最大的参数值为最终取值。

参考文章1,已知100个男生的身高分布概率,当不知道他们的均值和方差,通过最大似然估计认为,均值和方差应该是使这个概率分布最大。

最大似然估计函数如下:

如果是连乘形式,可以求对数简化为相加形式:

求解可以是求导数为0,即牛顿法或者梯度下降法(计算机中使用)。



HMM,隐马尔科夫模型。HMM在自然语言处理领域应用比较广泛,如汉语分词,词性标注,语音识别。

典型的隐马尔科夫模型,其下一个状态只与当前相关,与其他因素不相关。这样虽然不太正确,可能舍去了很多重要信息,但能简化模型和计算量,得出结果,因此实际中也经常用。

参考一个经典的HMM例子,见下图。

HMM能解决三个基本问题:

1、根据观测序列和模型参数,求模型参数已知条件下的观测序列后验概率。

2、求观测序列已知情况下的状态序列最合理取值。

3、如何调整模型参数,使观测序列后验概率取值最大。




LDA(latent dirichlet allocation)叫主题模型,应用在图像分类、文本分类、主题词抽取。

是一个三层贝叶斯概率模型,包含词、主题、文档。

可以解决矩阵稀疏的问题。

是最简单的话题模型(topic model),话题模型就是发现大量文档集合的主题的算法。

可以判断两个文档的相似性和距离。是基于主题模型的语义挖掘技术,能区别两篇文章在语义上的区别,而非词频的区别。

主题模型常用算法有两种:pLSA和LDA。更多内容参考文章6.




1、http://www.cnblogs.com/openeim/p/3921835.html

2、http://www.cnblogs.com/skyme/p/4651331.html(HMM介绍)

3、http://blog.csdn.net/app_12062011/article/details/50408664#t6(HMM在自然语言处理中的应用详细介绍)

4、http://www.52nlp.cn/hmm-learn-best-practices-and-cui-johnny-blog

5、http://blog.csdn.net/daringpig/article/details/8072794

6、http://blog.csdn.net/huagong_adu/article/details/7937616(LDA与TF-IDF的区别)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,454评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,553评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,921评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,648评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,770评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,950评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,090评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,817评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,275评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,592评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,724评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,409评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,052评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,815评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,043评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,503评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,627评论 2 350

推荐阅读更多精彩内容