期望交叉熵也称为KL距离,反映的是文本类别的概率分布和在出现了某个特征的条件下文本类别的概率分布之间的距离,具体公式表示如下
P(t)表示特征t在文本中出现的概率
P(ci)表示ci类文本在文本集中出现的概率
P(ci|t)表示文本包含特征t时属于类别c的概率
|c|表示类别总数。
如果特征t和类别强相关,即P(ci|t)大,并且相应的P(ci)又比较小,则说明特征t对分类的影响大,相应的期望交叉熵值也较大,特征在特征子集中的排名就会比较靠前。
期望交叉熵在文本分类的特征选择中得到了广泛的应用,并且取得了很好的效果,与信息增益相比,期望交叉熵不再考虑特征项不出现的情况,这就大大降低了一些出现次数很少的稀有特征的干扰,提高了分类的效率。期望交叉熵在特征选择上虽然已经取得了很好的效果,但是还存在一些不足,最明显的一点就是它只考虑了特征与类别之间的相关性,而忽略了特征项在类内和类间分布的均匀程度。如果考虑到特征在类内和类间分布的影响,则特征项集中的出现在某一个类中比均匀分布在很多类中含有更多的类别信息,特征项在某一个类中均匀地分布在很多文本中比只在该类中个别文本中出现含有更多的类别信息。
参考:http://blog.csdn.net/fighting_one_piece/article/details/38562183
同时发现在有的博客中公式没有前面词t的概率