1 K-means 与 EM 的联系
给定 维空间中一个包含
个点的数据集
, 以及期望其聚成
簇:
, 我们可以定义每个簇的中心点为
其中 表示簇
的点的个数。这样,K-means 算法的目标函数 (平方差和) 为:
1.1 EM 算法的基本原理和步骤
假设每一个簇 都由一个多元正态分布刻画,即
其中,簇均值 及协方差矩阵
均是未知参数。
是
属性属于簇
的概率密度。令
表示对应
的第
维度的随机变量,记
代表对应于
个维度的随机向量。假设
的概率密度函数是在所有
个簇之上的高斯混合模型,定义为
其中先验概率 , 满足
我们将簇 的参数简记作
则 的似然为
则 MLE (极大似然估计) 为
由贝叶斯公式可知
由于每个簇都建模为一个多元正态分布,故而
因而, 可以看作是点
在簇
中的权值或贡献。
- 初始化:
, 对于每一个簇
, 均值
使用均匀分布随机地初始化 且
,
.
- E 步:计算
, 且记
表示簇
在所有
个点上的权向量。
- M 步:重新估计
, 即
- 不断地依次重复操作
步和
步,直到
.