信息熵
在文本分类中,假设文本共k类,每类出现的概率是:
其中每个类别的信息熵计算公式:
信息熵代表了不不确定性,不确定性越大,信息熵越大。
假如k=1,该类别的概率为1,则不确定性为0,信息熵也为0。
条件熵
条件熵表示在条件X下Y的信息熵:
X定义为文本中word是否出现,公示如下:
其中:
信息增益
信息增益 = 信息熵 - 条件熵
约定A为出现特征t且类别为Ci的文档数,B为出现特征t且类别不为Ci的文档数,C为不出现特征t且类别为Ci的文档数,D为不出现特征t且类别不为Ci的文档数,N为文档总数。
则针对某个类别Ci,特征t的信息增益为:
总结
信息增益法在文本分类时用于特征提取, 选取对某类别信息增益比较大的词作为该类的特征。
例如在正负向文本分类中,某个特征(词)针对某个类别(正负向)的信息增益比较大,即该词的出现使该文本为某一类别的概率大大增加,则可将该词作为该类别的特征。