最大信息系数(Maximum Information Coefficient,MIC)和互信息(Mutual Information,MI)都是衡量两个变量之间相关性的方法,但它们之间存在一些区别。
互信息是一种用于衡量两个随机变量之间相互依赖程度的方法。它的定义如下:
互信息:对于两个离散型随机变量 和 ,它们的互信息 定义为:
其中, 表示 且 的联合概率分布, 和 分别表示 和 的边缘概率分布。
互信息的取值范围为 ,取值越大表示两个变量之间相关性越强。
而最大信息系数是一种用于衡量两个变量之间非线性相关性的方法,它的定义如下:
最大信息系数:对于两个变量 和 ,它们的最大信息系数 定义为:
其中, 和 是 和 到 区间的单调函数, 和 分别是 和 的可能取值个数。
最大信息系数的取值范围为 ,取值越大表示两个变量之间相关性越强。
最大信息系数和互信息之间的关系是:最大信息系数是互信息的一种估计方法。具体来说,最大信息系数可以看作是互信息在一定条件下的估计值,其中的条件是 和 之间的关系是单调的。因此,最大信息系数的取值范围比互信息小,但它对非线性关系的检测能力更强。
最大信息系数(Maximum Information Coefficient, MIC)是一种用于衡量两个变量之间相关性的非参数统计方法,由 Reshef 等人于 2011 年提出。
MIC 的基本思想是对于任意一对变量 和 ,通过分别对 和 进行 -NN(k-Nearest Neighbors)估计,来评估它们之间的关联程度。具体地,MIC 首先将 和 按照值的大小进行排序,然后用 -NN 方法来估计 和 之间的条件分布 和 ,最后计算 和 之间的最大信息系数:
其中, 和 分别是 和 到 区间的映射函数, 是一个权重函数,它在 和 距离越近的时候取得更大的值,可以用于调整那些较远的点对于 MIC 的影响。这个式子可以理解为在所有可能的 和 中选择一个最优的组合,使得它们的点乘积之和除以归一化系数最大。
MIC 的取值范围是 ,其中 表示两个变量之间没有相关性, 表示两个变量之间具有完全的相关性。与 Pearson 相关系数等传统方法相比,MIC 能够处理更加复杂的非线性关系,并且在样本量较小、特征数量较多等情况下具有较好的鲁棒性。不过,与大部分非参数方法一样,MIC 的计算复杂度较高,通常需要进行一定的优化才能适用于大规模数据集。