数学建模系列笔记6：聚类和判别分析

@[toc]

6-1-1 模糊聚类

原理简介：现实中的数学模型可以分为三大类：确定性数学模型、随机性数学模型、模糊性模型，模糊数学正是研究带有模糊性问题的方法，只要定义了隶属函数，有了隶属度，就可以对样本进行模糊识别和模糊聚类。

定义：设 $R = (r_{ij})_{n\times n}$ 是n阶模糊方阵，I是n阶单位方阵，若R满足：

自反性： $I\leq R$
对称性： $R^T = R$
传递性： $R^2 \leq R( \Leftrightarrow max\{r_{ik}\wedge r_{kj}|1\leq k\leq n\}\leq r_{ij})$

则称R为模糊等价矩阵。

定理：设R是n阶模糊等价矩阵，则 $\forall 0 \leq \lambda < \mu \leq 1,R_{\mu}$ 所决定的分类中的每一个类是 $R_{\lambda}$ 所决定的分类中的某个子类。

该定理表明，当 $\lambda < \mu$ 时， $R_{\mu}$ 的分类是 $R_{\lambda}$ 分类的加细，当 $\lambda$ 由1变到0时， $R_{\lambda}$ 的分类由细到粗，形成一个动态的聚类图。

模糊聚类的一般流程

建立数据矩阵，并标准化（去量纲）
建立模糊相似矩阵
求出传递闭包矩阵，根据传递闭包矩阵计算 $\lambda$ 截矩阵，根据 $\lambda$ 截矩阵进行模糊聚类，根据模糊聚类结果画出聚类图

模糊聚类的详细步骤

建立数据矩阵

设论域 $U = \{x_1,x_2,…,x_n\}$ 为被分类对象（样本），每个对象又由m个指标表示其形状： $x_i = \{x_{i1},x_{i2},…,x_{im}\},i=1,2,…,n$ ，则得到原始数据矩阵为 $X = (x_{ij})_{n \times m}$
对数据矩阵进行标准化
建立模糊相似矩阵

建立 $x_i$ 与 $x_j$ 相似程度 $r_{ij} = R(x_i,x_j)$ 的方法主要有：
- 相似系数法
  - 夹角余弦法
    $r_{ij} = \frac{\sum_{k=1}^mx_{ik}x_{jk}}{\sqrt{\sum_{k=1}^mx_{ik}^2\sum_{k=1}^mx_{jk}^2}}$
  - 相关系数法
- 距离法
  
  一般地，取 $r_{ij} = 1-c(d(x_i,x_j))^{\alpha}$ ，其中 $c,\alpha$ 为适当选取的参数，它使得 $0\leq r_{ij}\leq 1$ ,采用的距离有
  - Hamming距离
    $d(x_i,x_j) = \sum_{k=1}^m |x_{ik}=x_{jk}|$
  - Euclid距离
    $d(x_i,d_j) = \sqrt{ \sum_{i=1}^m (x_{ik}-x_{jk})^2 }$
  - Chebysgev距离
    $d(x_i,x_j) = max_{1\leq k \leq n}|x_{ik}-x_{jk}|$
- 贴近度法
  - 最大最小法
    $r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\sum_{k=1}^m(x_{ik}\vee x_{jk})}$
  - 算术平均最小法
    $r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\frac{1}{2}\sum_{k=1}^m(x_{ik}+ x_{jk})}$
  - 几何平均最小法
    $r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\sum_{k=1}^m\sqrt{x_{ik}· x_{jk}}}$
聚类
1. 利用模糊传递闭包法，先求出模糊自相似矩阵R的传递闭包 $t(R)$ ;
2. 按 $\lambda$ 由大到小进行聚类;
3. 画出动态聚类图。

6-1-2 模糊聚类：精准扶贫

6-2 系统聚类分析

聚类分析：群分析，它是研究聚类问题的一种多元统计方法。

将相似元素聚为一类，通常选取元素的许多共同指标，然后通过分析元素的指标值来分辨元素间的差距，从而达到聚类的目的。

聚类分析分为Q型（样品聚类）聚类、R型（指标聚类）聚类。

聚类分析步骤：

确定聚类类型
数据预处理：为了使不同量纲的量能进行比较，需要将数据规格化
研究样品之间的关系
研究类与类之间的关系
- 最短距离法
  $d(G_1,G_2) = min_{x_i \in G_1,x_j \in G_2}\{d(x_i,x_j)\}$
- 最长距离法
  $d(G_1,G_2) = max_{x_i \in G_1,x_j \in G_2}\{d(x_i,x_j)\}$
- 重心法
  $d(G_1,G_2) = \{d(\bar{x},\bar{y})\}$

系统聚类分析聚类数的确定：

可根据经验确定聚类数
聚类后，可以通过计算统计量（比如均值）或不一致系数，来确定聚类数

6-3 动态聚类分析

系统聚类法：优点是聚类比较准确，缺点是聚类的次数较多，每聚类一次只能减少一类或若干类，每一次都需要计算两两样品或小类之间的距离或其他相似性统计量，做起来较麻烦。

对于海量数据，几乎难以实现聚类。动态聚类法对于容量较大的样本聚类会比较方便。

方法理论简介：

先确定若干个样品为初始凝聚点，计算各样品与凝聚点的距离或其他相似性统计量，进行初始聚类后再根据初始聚类计算各类的重心作为新的凝聚点，进行第二次聚类，并且重复多次，直到符合某一最优原则为止。

又称逐步聚类法，关键是凝聚点的选择及聚类结果的跳着，常用的方法有成批调整法与离差平方和法。
成批调整法（k-means法）

总结与体会

k均值方法对初始点敏感
k均值方法的计算比较耗时

6-4 模糊模式识别

模式识别的本质特征：一是事先已知若干标准模式，称为标准模式库；二是有待识别的对象。
所谓模糊模式识别，是指在模式识别中，模式是模糊的，或有待识别的对象是模糊的。

模式识别数学原理

最大隶属原则|：设 $A_1,A_2,…,A_m$ 为给定的论域U上的m个模糊模式， $x_0 \in U$ 为一个待识别对象，若 $A_i(x_0) = max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\}$ ,则认为 $x_0$ 优先归属于模糊模式 $A_i$ 。

最大隶属原则||：设A为给定论域U上的一个模糊模式， $x_1,x_2,…,x_n$ 为U中的n个待识别对象，若 $A(x_i) = max\{A(x_1),A(x_2),…,A(x_n)\}$ ,则认为模糊模式A应优先录取 $x_i$ 。

阈值原则：设 $A_1,A_2,…,A_m$ 为给定论域U上的m个模糊模式，规定一个阈值 $\lambda \in [0,1],x_0 \in U$ 为一个待识别对象。

如果 $max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\}<\lambda$ ,则作“拒绝识别”的判决，这时应查找原因，再做分析。
如果 $max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\}\geq\lambda$ ,并且有k个模糊模式 $A_{i_1}(x_0),A_{i_2}(x_0),…,A_{i_k}(x_0)$ 大于或等于 $\lambda$ ,则认为识别可行，并将 $x_0$ 划归于 $max\{A_{i_1},A_{i_2},…,A_{i_k}\}$

择近原则：

贴近度： $\sigma(A,B)$ 表示两个模糊集A,B之间的贴近程度

格贴近度： $\sigma_0(A,B) = \frac{1}{2}[A\circ B] + (1-A\odot B)]$

其中： $A\circ B = max\{A(x) \wedge B(x) \}$ 表示两个模糊集A,B的内积

        $A\odot B = min \{A(x) \vee B(x)\}$表示两个模糊集A,B的外积

定义（公理化定义）若（A,B)满足

$\sigma(A,A) = 1$
$\sigma(A,B) = \sigma(B,A)$
若有 $A \leq B \leq C,则\sigma (A,C) \leq \sigma(A,B) \leq \sigma (B,C)$ .

则称 $\sigma(A,B)$ 为A与B的贴近度。

模糊模式识别可以广泛被运用到模糊识别的各个方面，使用时最基本的是要建立评价模式和被评价对象的恰当指标，其次才是运用各类识别原则，对被评价对象进行模式识别。

6-5-1 贝叶斯判别

为了能识别待判断的对象 $x= (x_1,x_2,…,x_m)^T$ 是属于已知类 $A_1,A_2,…,A_r$ 中的哪一类，需要有一个一般规则做出判断，这样一个规则为判别规则（用于衡量待判别对象与各已知类别接近程度的方法准则）

判别分析的假设条件：

各个判别变量服从正态分布，由各个判别变量的联合分布是多元正态分布
各判别变量不能存在多重共线性，每个变量在各类中的取值应存在显著性差异

方法理论简介：

假设对所研究的对象有了一定的认识，重新计算样品属于各总体的条件概率：
$f(g|x) (g=1,2,…,k)$
比较这k各概率大小，然后将新样本判归为来自后验概率最大的总体。

Bayes判别法的基本思想

在观测一个样品x的情况下，可用Bayes公式计算它来自第g总体的后验概率
$p(g|x) = \frac{q_j f_j(x)}{\sum_{i=1}^k q_j f_j},j = 1,2,…,k$

计算各类变量的均值以及均值向量，各变量的总均值及均值向量；
计算类内协方差矩阵及其逆矩阵；
计算Bayes判别函数中，各个变量的系数及常数项并写出判别函数；
计算类内协方差矩阵及总各协方差矩阵，作多个变量的全体判别效果的检验；
各个变量的判别能力的检验；
判别新样本应属于的类别。

在得到样本后，首先可以根据样本信息修正之前所获得的先验概率分布，进一步获得后验概率分布，之后可以通过新的后验概率分布进行各种统计推断。

一种好的判别方法，一定要考虑到每个总体出现的先验概率，同时能够对误判所出现的损失进行评估。贝叶斯判别法就具备上述优点。

6-5-2 贝叶斯判别：医疗诊断模型

样本空间的划分

定义：设S为试验E的样本空间， $B_1,B_2,…,B_n$ 为E的一组事件，若

$B_iB_j = \varnothing, i \ne j, i,j = 1,2,…,n;$
$B_1 \cup B_2 \cup …\cup B_n = S.$

则称 $B_1,B_2,…,B_n$ 为样本空间S的一个划分。

全概率公式

试验E的样本空间为S,A为E的事件， $B_1,B_2,…,B_n$ 为S的一个划分，且 $P(B_i)>0(i=1,2,…,n)$ ，则
$P(A) = \sum_{i=1}^n P(A|B_i)P(B_i)$
贝叶斯公式
$P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^n P(A|B_j)P(B_j)},i = 1,2,…,n$
贝叶斯判别的理论基础

$G_1,G_2—p$ 维总体，密度 $f_(x),f_2(x)$ ,各总体先验概率 $p_1 = P(G_1),p_2 = P(G_2),p_1 + p_2 = 1.$

样品 $x = (x_1,x_2,…,x_p)^T$ 属于G1,G2的后验概率为
$P(G_1|x) = \frac{p_1 f_1(x)}{p_1f_1(x)+p_2f_2(x)},P(G_2|x) = \frac{p_2 f_2(x)}{p_1f_1(x)+p_2f_2(x)}$
两个总体的Bayes判别准则
$x \in G_1,P(G_1|x)\geq P(G_2|x) p_1f_1(x)\geq p_2f_2(x)\\ x \in G_2,P(G_1|x)< P(G_2|x) p_1f_1(x)< p_2f_2(x)$

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,591评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,448评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,823评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,204评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,228评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,190评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,078评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,923评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,334评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,550评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,727评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,428评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,022评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,672评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,826评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,734评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,619评论 2赞 354