最近在自己看statistical learning的东西, 接触了各种很数学的回归和建模, 今天在预习下午的AI课的时候看到了这个naive bayes classifier, 感觉上手比较容易, 遂记录一下.
假设Y为因, X为果(画一个BN graph就是一个parent有很多children), 且知 P(X|Y), 求P(Y|X). 其实这是一个非常简单的贝叶斯问题, 通过套公式就能得出. 我所钦佩的是这个公式可以在document classification中进行应用, 非常简洁. Y就是文档的分类, X就是字典中所有词是否在Y=y这篇文章中出现. 那么对文档进行分类就是 P(Y|X) = P(X|Y)*P(Y)/P(X). P(Y)和P(X|Y)都是很容易计算的, P(X)其实也很好算, 就是 SUM(P(X|Y)*P(Y)), according to marginalization rule.
这种分类不需要复杂的建模, 分析test error/ standard error之类的, 给人很清爽的感觉. 但也比较局限, 因为它假设xi 之间没有correlation given Y, 但实际生活中predictors之间是有影响的. 可喜的是真正应用中这种分类的效果也不差.