聚类Clustering_KMeans

聚类分析是在没有给出确定的划分类别的情况下,按照数据的相似度或者自身的距离进行样本分组的一种非监督方法。划分原则就是组内距离最小化而组间距离最大化。

K-Means算法:

基于距离的非层次聚类算法(划分方法),在目标函数最小化的基础上将数据划分成K类,数据点距离越近,相似度就越大,越容易被划为一类。K-Means算法的时间复杂度是O(tkn),其中t是循环次数;k是聚类个数;n是样本个数。由于t,k都要小于n,所以化简后为O(n).

算法实现:

1. 从样本数据中随机选择K个对象作为其实的中心点

2. 计算每个样本到所有中心点的距离,将样本分配到距离最近的聚类簇中

3. 所有样本分配完成后再次计算K个簇的中心

4. 如果簇的中心改变,则重新分配样本至距离最近的簇中直到最后聚类中心不再改变

聚类的结果对于初始中心点的选择具有随机性,所以最后的结果可能严重偏离全局最优解(对数据噪声和异常值很敏感)。因此,为了获得较好的结果,通常随机选择不同的初始聚类中心,多次运行K-Means算法

对于连续数值:

样本相似性的度量中,一般采用欧氏距离;样本与簇之间的距离可以用样本到簇中心点的距离表示;同样,簇与簇之间的距离也是用簇中心的距离来代替。

欧几里得距离

代价函数J(连续数值):

m个样本点距离所属聚类中心μc_i距离的平均平方和,优化的目标是使代价函数最小:

下图为代价函数在簇中心移动时的变化情况

决定聚类数量:

通常需要人工判别,在无提前定义类别数的情况下,参考肘部原则Elbow method:


在预处理阶段需要对样本进行标准化(z-score normalization), 新数据符合标准正态分布,即均值为0,标准差为1.

聚类算法评价:(判断聚类结果的优劣)

簇内相似性越大,簇间差别越大,聚类的效果越好。

1. Purity评价:计算正确聚类数占总数的比例

x=(x1,x2,...,xk)是聚类的集合,xk是第k个聚类。y=(y1,y2,...,yk)表示需要被聚类的集合,yi表示第i个聚类样本

purity = (5+4+3)/17

2. Rand Index RI评价:用排列组合的原理进行评价的手段, RI取值范围为[0,1],RI越大表示聚类效果准确性越高 同时每个类内的纯度越高

TP是指被聚在一类的两个文档被正确分类了,TN是指不应该被聚在一类的两个文档被正确分开了,FP指不应该放在一类的文档被错误的放在了一类,FN指不应该分开的文档被错误的分开了。

按照上图例子:cluster1 = x, cluster2 = o, cluster3 = ◇ or x

cluster1 - 是x并且放在cluster1: C(2,5)

cluster2 - 是x并且放在cluster2: C(2,4)

cluster3 - 是x/◇并且放在cluster3: C(2,3)+C(2,2)

所以:TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20

C(2, 7) – Cluster 1 – test says ‘x’, so count those that are NOT x (and are correctly clustered in clusters 2 & 3),

C(2, 10) – Cluster 2, count those that are NOT ‘o’s and correctly clustered in clusters 1 & 3,

C(2, 4) – Cluster 3, count those that are NOT ‘x’ and NOT ‘d’(diamond shaped element)s that are correctly clustered in clusters 1& 2.

所以:TN =  C(2,7) + C(2,10) + C(2,4) = 72 

TP+TN+FP+FN = C(2, n_samples) = C(2,17) = 136

所以:RI = ( 20 + 72) / 136 = 0.68

*FP, FN可以不参与求解RI,但是可以通过如果转换得到:

    The three clusters contain 6, 6, and 5 points, respectively, so the total number of ''positives'' or pairs of documents that are in the same cluster is

    所以:TP+FP = C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40    其中C(n,m)是指在m中任选n个的组合数。

    FP = 40 - 20 = 20

    FN = C(2,17) - (TP+FP) - TN = 136 - 40 -72 = 24

3. 调整兰德函数Adjusted Rand Index:the adjusted Rand index can yield negative values if the index is less than the expected index. Value is in [-1, 1].

The contingency table

Given a set S of n elements, and two groupings or partitions (e.g. clusterings) of these elements, namely X={x1,x2,...,xr}  and Y={y1,y2,...,ys} , the overlap between X and Y can be summarized in a contingency table [nij] where each entry nij denotes the number of objects in common between Xi and Yi: nij = |Xi ∩ Yi|

4. F值评价:基于RI衍生

p = TP / (TP+FP), r = TP / (TP+FN)

The Rand index gives equal weight to false positives and false negatives. Separating similar documents is sometimes worse than putting pairs of dissimilar documents in the same cluster. We can use the F measure to penalize false negatives more strongly than false positives by selecting a valuea > 1, thus giving more weight to recall召回率.

5. 互信息mutual information评价

是用来衡量两个数据分布的吻合程度。也是一类有用的信息度量,它是指两个事件集合之间的相关性。

设随机变量(X,Y)的联合分布为 p(x,y), 边际分布为 p(x),p(y), 互信息 I(X;Y) 是联合分布 p(x,y) 与 边际分布p(x),p(y)的相对熵,即:

互信息越大,样本和聚类类别的关系就越大。

标准化后的互信息:

与ARI类似,调整互信息:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355