公司笔试题目分享

1 K-means 与 EM 的联系

给定 n 维空间中一个包含 m 个点的数据集 D = (x_1, x_2, \cdots, x_m)^T, 以及期望其聚成 k 簇:\mathcal{C} = \{C_1, C_2, \cdots, C_k\}, 我们可以定义每个簇的中心点为

\mu_i = \frac{1}{m_i} \displaystyle \sum_{x_j \in C_i} x_j

其中 m_i=|C_i| 表示簇 C_i 的点的个数。这样,K-means 算法的目标函数 (平方差和) 为:

\text{SSE}(\mathcal{C}) = \displaystyle \sum_{i=1}^k \sum_{x_j \in C_i} ||x_j - \mu_i||^2

1.1 EM 算法的基本原理和步骤

假设每一个簇 C_i 都由一个多元正态分布刻画,即

f_i(x) = f(x|C_i;\mu_i,\Sigma_i) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma_i|^{\frac{1}{2}}} \exp\{- \frac{(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)}{2}\}

其中,簇均值 \mu_i \in \mathbb{R}^n 及协方差矩阵 \Sigma_i \in \mathbb{R}^{n\times n} 均是未知参数。f_i(x)x 属性属于簇 C_i 的概率密度。令 X_j 表示对应 x_i 的第 j 维度的随机变量,记 X = (X_1, X_2, \cdots, X_d)^T 代表对应于 d 个维度的随机向量。假设 X 的概率密度函数是在所有 k 个簇之上的高斯混合模型,定义为

f(x) = \displaystyle \sum_{i=1}^k f_i(x)P(C_i) = \sum_{i=1}^k f_i(x|C_i;\mu_i,\Sigma_i)P(C_i)

其中先验概率 P(C_i), 满足

\displaystyle \sum_{i=1}^k P(C_i) = 1

我们将簇 C_i 的参数简记作

\theta_i = \{\mu_i, \Sigma_i, P(C_i)\}

\theta =\{\theta_1, \ldots, \theta_k\} 的似然为

P(D|\theta) = \prod_{j=1}^m f(x_j)

则 MLE (极大似然估计) 为

\theta^* = \arg\max_{\theta} \ln (P(D|\theta))

由贝叶斯公式可知

P(C_i|x_j) = \frac{P(x_j|C_i)P(C_i)}{\sum_{t}^kP(x_j| C_t)P(C_t)}

由于每个簇都建模为一个多元正态分布,故而

P(x_j|C_i) \approx 2\epsilon \cdot f_i(x_j)

因而,P(C_i|x_j) 可以看作是点 x_j 在簇 C_i 中的权值或贡献。

i=1,\ldots,k

  1. 初始化:t\leftarrow0, 对于每一个簇 C_i, 均值 \mu_i^t使用均匀分布随机地初始化 且 \Sigma_i^t \leftarrow I, P^t(C_i) \leftarrow \frac{1}{k}.
  2. E 步:计算 w_{ij} \leftarrow P^t(C_i|x_j), 且记 w_i \leftarrow (w_{1i}, \ldots, w_{mi})^T 表示簇 C_i 在所有 m 个点上的权向量。
  3. M 步:重新估计 \Sigma_i^t, \mu_i^t, P^t(C_i), 即

\begin{aligned} &\mu_i^t \leftarrow \frac{D^Tw_i}{w_i^T\mathbf{1}}\\ &\Sigma_i^t \leftarrow \frac{\sum_{j=1}^m w_{ij}(x_j - \mu_i)(x_j - \mu_i)^T}{w_i^T\mathbf{1}}\\ &P^t(C_i) \leftarrow \frac{w_i^T\mathbf{1}}{m} \end{aligned}

  1. 不断地依次重复操作 E 步和 M 步,直到

\sum_{i=1}^k ||\mu_i^t - \mu_i^{t-1}||^2 \leq \epsilon.

其他

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容