信息增益法

信息熵

在文本分类中，假设文本共k类，每类出现的概率是：

其中每个类别的信息熵计算公式：

信息熵代表了不不确定性，不确定性越大，信息熵越大。

假如k=1,该类别的概率为1，则不确定性为0，信息熵也为0。

条件熵表示在条件X下Y的信息熵：

X定义为文本中word是否出现，公示如下：

其中：

信息增益 = 信息熵 - 条件熵

约定A为出现特征t且类别为Ci的文档数，B为出现特征t且类别不为Ci的文档数，C为不出现特征t且类别为Ci的文档数，D为不出现特征t且类别不为Ci的文档数，N为文档总数。

则针对某个类别Ci，特征t的信息增益为：

信息增益法在文本分类时用于特征提取, 选取对某类别信息增益比较大的词作为该类的特征。

例如在正负向文本分类中，某个特征（词）针对某个类别（正负向）的信息增益比较大，即该词的出现使该文本为某一类别的概率大大增加，则可将该词作为该类别的特征。