数据挖掘概论
产生背景:从数据到知识
数据就是描述事物的符号。
数据: 是原材料,它只描述发生了什么事情,并不能构成决策或行动的可靠基础。
信息: 通过对数据进行分析找出其中关系,赋予数据以某种意义和联系,这就形成了所谓的信息。信息虽然给出了数据中一些有一定意义的东西,但是它往往和人们所要完成的任务没有直接的联系,也还不能作为判断、决策和行动的依据。
知识:对信息进行再加工,即进行更深入的归纳分析,才能获得更有用的信息,即知识。
数据挖掘(Data Mining):在数据中正规地发现有效的、新颖的、潜在有用的,并且最终可以被读懂的模式的过程。
按照算法,将数据挖掘的模型分为预测和描述两类。
数据挖掘任务:预测任务、描述任务。
数据挖掘应用的领域有市场营销、金融、银行、制造和通信等。商业上的大多数应用针对的是分类预测任务。
数据挖掘过程:
选择:根据某种标准选择或者切分数据。
处理:包括清除和充实两个方面
转换:删除那些丢失重要内容的记录,将数据分类
解释与评价:将发现的模式解释成为可以用于决策的知识
例题:
一、生物医学领域人工智能的研究热点和发展趋势
1、检索
①在MESH中查找主题词“人工智能”
②在pubmed中的生物医学领域数据库检索主题词,不组配任何副主题词并加权。
2、数据提取
使用书目共现分析系统提取高频主题词及关键词。
3、数据预处理
①通过MESH主题词表规范合并主题词
②根据词频选择合适阈值确定数据
4、数据处理
①生成词篇矩阵、共现矩阵
②利用软件进行聚类分析(spss、gcluto)
③利用软件进行战略坐标图制作
5、结果分析
①根据第4步聚类分析结果得出研究热点
②根据第4步战略坐标图分析发展趋势
6、得出结论
二、探索中医防治“新冠”的用药特点及配伍规律的技术路线
1、检索
在“国家知识产权局”专利数据库中获取防治“新冠”的专利药方。
2、数据提取
自定义书目共现分析系统文件类型,提取数据。
3、数据预处理
①根据《中国药典》等,规范合并药物名称。
②选择合适的阈值确定数据。
4、利用Apriori 算法处理数据
①根据频次统计结果形成一项集。
②设置合适支持度阈值形成k项集。
③分别统计两种药物(二项集)的支持度、置信度,三项集、四项集、直到找到频繁k项集为止。
5、结果分析
①根据第4步支持度分析用药特点。
②根据第四步置信度分析配伍规律。
6、得出结论
聚类分析
聚类定义:聚类分析(Cluster Analysis)是将一个数据集划分为若干组或类的过程(组或类未知),并使得同一个组内的数据对象具有较高的相似度;不同的组中的数据对象是不相似的。
分类(classification):是一种数据分析过程,即根据记录各属性的值确定该记录属于预定类别中的哪一类。
聚类与分类的不同:
分类是根据样本的属性将数据对象分到不同的已知类中;
聚类是在划分的类未知的情况下,将数据对象组成不同类,需在样本中找到这个属性。
聚类分析中常用的数据类型有区间标度变量、二元变量、标称型变量、序数型变量、序数型变量、比例标度型标量和混合类型变量。
相异度d(i ,j)的具体计算会因所使用的数据类型的不同而异。
二元变量相异度计算:
r+s: 不同值的个数
q:同为阳性的个数
K-均值算法思想:
随机选择k个对象,每个对象初始地代表一个类的平均值或中心,对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止。
层次聚类:凝聚的,分裂的
共现分析
同被引分析 共词分析 共篇分析
战略坐标
横轴 向心度:主题词关联强度
纵轴 密度:主题内部关联强度
支持度:两个词共同出现的概率。
置信度:X出现的情况下,Y也出现的概率。
先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。如果项集是非频繁的,则它的超集也一定是非频繁的。
Apriori算法:
扫描数据库,累积每个项的计数
收集满足最小支持度的项,找出频繁1项集的集合L1
L1用于找频繁2项集的集合L2
L2用于找L3
直到不能再找到频繁k项集为止
基于文献的知识发现
闭合式知识发现过程是从A和C出发,寻找共同的中间词B。
开放式知识发现的过程是,对某个初始研究主题A,在MEDLINE的标题字段检索其相关文献,寻找与A在标题中共同出现的中间词B,通过筛选得到有一定意义的B,进而重复上述过程,得到目标词C。