数学建模系列笔记6:聚类和判别分析

@[toc]

6-1-1 模糊聚类

原理简介:现实中的数学模型可以分为三大类:确定性数学模型、随机性数学模型、模糊性模型,模糊数学正是研究带有模糊性问题的方法,只要定义了隶属函数,有了隶属度,就可以对样本进行模糊识别和模糊聚类。

定义:设R = (r_{ij})_{n\times n}是n阶模糊方阵,I是n阶单位方阵,若R满足:

  1. 自反性:I\leq R

  2. 对称性:R^T = R

  3. 传递性:R^2 \leq R( \Leftrightarrow max\{r_{ik}\wedge r_{kj}|1\leq k\leq n\}\leq r_{ij})

    则称R为模糊等价矩阵

定理:设R是n阶模糊等价矩阵,则\forall 0 \leq \lambda < \mu \leq 1,R_{\mu}所决定的分类中的每一个类是R_{\lambda}所决定的分类中的某个子类。

该定理表明,当\lambda < \mu时,R_{\mu}的分类是R_{\lambda}分类的加细,当\lambda由1变到0时,R_{\lambda}的分类由细到粗,形成一个动态的聚类图。

模糊聚类的一般流程

  1. 建立数据矩阵,并标准化(去量纲)
  2. 建立模糊相似矩阵
  3. 求出传递闭包矩阵,根据传递闭包矩阵计算\lambda截矩阵,根据\lambda截矩阵进行模糊聚类,根据模糊聚类结果画出聚类图

模糊聚类的详细步骤

  1. 建立数据矩阵

    设论域U = \{x_1,x_2,…,x_n\}为被分类对象(样本),每个对象又由m个指标表示其形状:x_i = \{x_{i1},x_{i2},…,x_{im}\},i=1,2,…,n,则得到原始数据矩阵为X = (x_{ij})_{n \times m}

  2. 对数据矩阵进行标准化

  3. 建立模糊相似矩阵

    建立x_ix_j相似程度r_{ij} = R(x_i,x_j)的方法主要有:

    • 相似系数法

      • 夹角余弦法
        r_{ij} = \frac{\sum_{k=1}^mx_{ik}x_{jk}}{\sqrt{\sum_{k=1}^mx_{ik}^2\sum_{k=1}^mx_{jk}^2}}

      • 相关系数法

    • 距离法

      一般地,取r_{ij} = 1-c(d(x_i,x_j))^{\alpha},其中c,\alpha为适当选取的参数,它使得0\leq r_{ij}\leq 1,采用的距离有

      • Hamming距离
        d(x_i,x_j) = \sum_{k=1}^m |x_{ik}=x_{jk}|

      • Euclid距离
        d(x_i,d_j) = \sqrt{ \sum_{i=1}^m (x_{ik}-x_{jk})^2 }

      • Chebysgev距离
        d(x_i,x_j) = max_{1\leq k \leq n}|x_{ik}-x_{jk}|

    • 贴近度法

      • 最大最小法
        r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\sum_{k=1}^m(x_{ik}\vee x_{jk})}

      • 算术平均最小法
        r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\frac{1}{2}\sum_{k=1}^m(x_{ik}+ x_{jk})}

      • 几何平均最小法
        r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\sum_{k=1}^m\sqrt{x_{ik}· x_{jk}}}

  4. 聚类

    1. 利用模糊传递闭包法,先求出模糊自相似矩阵R的传递闭包t(R);
    2. \lambda由大到小进行聚类;
    3. 画出动态聚类图。

6-1-2 模糊聚类:精准扶贫

6-2 系统聚类分析

聚类分析:群分析,它是研究聚类问题的一种多元统计方法。

将相似元素聚为一类,通常选取元素的许多共同指标,然后通过分析元素的指标值来分辨元素间的差距,从而达到聚类的目的。

聚类分析分为Q型(样品聚类)聚类、R型(指标聚类)聚类。

聚类分析步骤:

  1. 确定聚类类型

  2. 数据预处理:为了使不同量纲的量能进行比较,需要将数据规格化

  3. 研究样品之间的关系

  4. 研究类与类之间的关系

    • 最短距离法
      d(G_1,G_2) = min_{x_i \in G_1,x_j \in G_2}\{d(x_i,x_j)\}

    • 最长距离法
      d(G_1,G_2) = max_{x_i \in G_1,x_j \in G_2}\{d(x_i,x_j)\}

    • 重心法
      d(G_1,G_2) = \{d(\bar{x},\bar{y})\}

系统聚类分析聚类数的确定:

  1. 可根据经验确定聚类数
  2. 聚类后,可以通过计算统计量(比如均值)或不一致系数,来确定聚类数

6-3 动态聚类分析

系统聚类法:优点是聚类比较准确,缺点是聚类的次数较多,每聚类一次只能减少一类或若干类,每一次都需要计算两两样品或小类之间的距离或其他相似性统计量,做起来较麻烦。

对于海量数据,几乎难以实现聚类。动态聚类法对于容量较大的样本聚类会比较方便。

方法理论简介:

  1. 先确定若干个样品为初始凝聚点,计算各样品与凝聚点的距离或其他相似性统计量,进行初始聚类后再根据初始聚类计算各类的重心作为新的凝聚点,进行第二次聚类,并且重复多次,直到符合某一最优原则为止。

    又称逐步聚类法,关键是凝聚点的选择及聚类结果的跳着,常用的方法有成批调整法与离差平方和法。

  2. 成批调整法(k-means法)

总结与体会

  • k均值方法对初始点敏感
  • k均值方法的计算比较耗时

6-4 模糊模式识别

  • 模式识别的本质特征:一是事先已知若干标准模式,称为标准模式库;二是有待识别的对象。
  • 所谓模糊模式识别,是指在模式识别中,模式是模糊的,或有待识别的对象是模糊的。

模式识别数学原理

最大隶属原则|:设A_1,A_2,…,A_m为给定的论域U上的m个模糊模式,x_0 \in U为一个待识别对象,若A_i(x_0) = max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\},则认为x_0优先归属于模糊模式A_i

最大隶属原则||:设A为给定论域U上的一个模糊模式,x_1,x_2,…,x_n为U中的n个待识别对象,若A(x_i) = max\{A(x_1),A(x_2),…,A(x_n)\},则认为模糊模式A应优先录取x_i

阈值原则:设A_1,A_2,…,A_m为给定论域U上的m个模糊模式,规定一个阈值\lambda \in [0,1],x_0 \in U为一个待识别对象。

  1. 如果max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\}<\lambda,则作“拒绝识别”的判决,这时应查找原因,再做分析。
  2. 如果max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\}\geq\lambda,并且有k个模糊模式A_{i_1}(x_0),A_{i_2}(x_0),…,A_{i_k}(x_0)大于或等于\lambda,则认为识别可行,并将x_0划归于max\{A_{i_1},A_{i_2},…,A_{i_k}\}

择近原则:

贴近度:\sigma(A,B)表示两个模糊集A,B之间的贴近程度

格贴近度:\sigma_0(A,B) = \frac{1}{2}[A\circ B] + (1-A\odot B)]

其中:A\circ B = max\{A(x) \wedge B(x) \}表示两个模糊集A,B的内积

        $A\odot B = min \{A(x) \vee B(x)\}$表示两个模糊集A,B的外积

定义(公理化定义)若(A,B)满足

  1. \sigma(A,A) = 1

  2. \sigma(A,B) = \sigma(B,A)

  3. 若有A \leq B \leq C,则\sigma (A,C) \leq \sigma(A,B) \leq \sigma (B,C).

    则称\sigma(A,B)为A与B的贴近度。

模糊模式识别可以广泛被运用到模糊识别的各个方面,使用时最基本的是要建立评价模式和被评价对象的恰当指标,其次才是运用各类识别原则,对被评价对象进行模式识别。

6-5-1 贝叶斯判别

为了能识别待判断的对象x= (x_1,x_2,…,x_m)^T是属于已知类A_1,A_2,…,A_r中的哪一类,需要有一个一般规则做出判断,这样一个规则为判别规则(用于衡量待判别对象与各已知类别接近程度的方法准则)

判别分析的假设条件:

  1. 各个判别变量服从正态分布,由各个判别变量的联合分布是多元正态分布
  2. 各判别变量不能存在多重共线性,每个变量在各类中的取值应存在显著性差异

方法理论简介:

假设对所研究的对象有了一定的认识,重新计算样品属于各总体的条件概率:
f(g|x) (g=1,2,…,k)
比较这k各概率大小,然后将新样本判归为来自后验概率最大的总体。

Bayes判别法的基本思想

在观测一个样品x的情况下,可用Bayes公式计算它来自第g总体的后验概率
p(g|x) = \frac{q_j f_j(x)}{\sum_{i=1}^k q_j f_j},j = 1,2,…,k

  1. 计算各类变量的均值以及均值向量,各变量的总均值及均值向量;
  2. 计算类内协方差矩阵及其逆矩阵;
  3. 计算Bayes判别函数中,各个变量的系数及常数项并写出判别函数;
  4. 计算类内协方差矩阵及总各协方差矩阵,作多个变量的全体判别效果的检验;
  5. 各个变量的判别能力的检验;
  6. 判别新样本应属于的类别。

在得到样本后,首先可以根据样本信息修正之前所获得的先验概率分布,进一步获得后验概率分布,之后可以通过新的后验概率分布进行各种统计推断。

一种好的判别方法,一定要考虑到每个总体出现的先验概率,同时能够对误判所出现的损失进行评估。贝叶斯判别法就具备上述优点。

6-5-2 贝叶斯判别:医疗诊断模型

样本空间的划分

定义:设S为试验E的样本空间,B_1,B_2,…,B_n为E的一组事件,若

  1. B_iB_j = \varnothing, i \ne j, i,j = 1,2,…,n;

  2. B_1 \cup B_2 \cup …\cup B_n = S.

    则称B_1,B_2,…,B_n为样本空间S的一个划分。

全概率公式

试验E的样本空间为S,A为E的事件,B_1,B_2,…,B_n为S的一个划分,且P(B_i)>0(i=1,2,…,n),则
P(A) = \sum_{i=1}^n P(A|B_i)P(B_i)
贝叶斯公式
P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^n P(A|B_j)P(B_j)},i = 1,2,…,n
贝叶斯判别的理论基础

G_1,G_2—p维总体,密度f_(x),f_2(x),各总体先验概率p_1 = P(G_1),p_2 = P(G_2),p_1 + p_2 = 1.

样品x = (x_1,x_2,…,x_p)^T属于G1,G2的后验概率为
P(G_1|x) = \frac{p_1 f_1(x)}{p_1f_1(x)+p_2f_2(x)},P(G_2|x) = \frac{p_2 f_2(x)}{p_1f_1(x)+p_2f_2(x)}
两个总体的Bayes判别准则
x \in G_1,P(G_1|x)\geq P(G_2|x) p_1f_1(x)\geq p_2f_2(x)\\ x \in G_2,P(G_1|x)< P(G_2|x) p_1f_1(x)< p_2f_2(x)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容