数据挖掘总复习

数据挖掘概论

产生背景:从数据到知识

数据就是描述事物的符号。

数据: 是原材料,它只描述发生了什么事情,并不能构成决策或行动的可靠基础。

信息: 通过对数据进行分析找出其中关系,赋予数据以某种意义和联系,这就形成了所谓的信息。信息虽然给出了数据中一些有一定意义的东西,但是它往往和人们所要完成的任务没有直接的联系,也还不能作为判断、决策和行动的依据。

知识:对信息进行再加工,即进行更深入的归纳分析,才能获得更有用的信息,即知识。

数据挖掘(Data Mining):在数据中正规地发现有效的、新颖的、潜在有用的,并且最终可以被读懂的模式的过程。

按照算法,将数据挖掘的模型分为预测和描述两类。


数据挖掘系统体系结构图

数据挖掘任务:预测任务、描述任务。

数据挖掘应用的领域有市场营销、金融、银行、制造和通信等。商业上的大多数应用针对的是分类预测任务。

数据挖掘过程:

选择:根据某种标准选择或者切分数据。

处理:包括清除和充实两个方面

转换:删除那些丢失重要内容的记录,将数据分类

解释与评价:将发现的模式解释成为可以用于决策的知识

例题:

一、生物医学领域人工智能的研究热点和发展趋势

1、检索

①在MESH中查找主题词“人工智能”

②在pubmed中的生物医学领域数据库检索主题词,不组配任何副主题词并加权。

2、数据提取

使用书目共现分析系统提取高频主题词及关键词。

3、数据预处理

①通过MESH主题词表规范合并主题词

②根据词频选择合适阈值确定数据

4、数据处理

①生成词篇矩阵、共现矩阵

②利用软件进行聚类分析(spss、gcluto)

③利用软件进行战略坐标图制作

5、结果分析

①根据第4步聚类分析结果得出研究热点

②根据第4步战略坐标图分析发展趋势

6、得出结论


二、探索中医防治“新冠”的用药特点及配伍规律的技术路线

1、检索

在“国家知识产权局”专利数据库中获取防治“新冠”的专利药方。

2、数据提取

自定义书目共现分析系统文件类型,提取数据。

3、数据预处理

①根据《中国药典》等,规范合并药物名称。

②选择合适的阈值确定数据。

4、利用Apriori 算法处理数据

①根据频次统计结果形成一项集。

②设置合适支持度阈值形成k项集。

③分别统计两种药物(二项集)的支持度、置信度,三项集、四项集、直到找到频繁k项集为止。

5、结果分析

①根据第4步支持度分析用药特点。

②根据第四步置信度分析配伍规律。

6、得出结论


聚类分析

聚类定义:聚类分析(Cluster Analysis)是将一个数据集划分为若干组或类的过程(组或类未知),并使得同一个组内的数据对象具有较高的相似度;不同的组中的数据对象是不相似的。

分类(classification):是一种数据分析过程,即根据记录各属性的值确定该记录属于预定类别中的哪一类。

聚类与分类的不同:

分类是根据样本的属性将数据对象分到不同的已知类中;

聚类是在划分的类未知的情况下,将数据对象组成不同类,需在样本中找到这个属性。


聚类分析中常用的数据类型有区间标度变量、二元变量、标称型变量、序数型变量、序数型变量、比例标度型标量和混合类型变量。

相异度d(i ,j)的具体计算会因所使用的数据类型的不同而异。

二元变量相异度计算:

相异度计算公式

r+s: 不同值的个数

q:同为阳性的个数

K-均值算法思想:

      随机选择k个对象,每个对象初始地代表一个类的平均值或中心,对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止。

层次聚类:凝聚的,分裂的


共现分析

同被引分析  共词分析    共篇分析

战略坐标

横轴    向心度:主题词关联强度

纵轴    密度:主题内部关联强度

支持度:两个词共同出现的概率。

置信度:X出现的情况下,Y也出现的概率。

先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。如果项集是非频繁的,则它的超集也一定是非频繁的。

Apriori算法:

扫描数据库,累积每个项的计数

收集满足最小支持度的项,找出频繁1项集的集合L1

L1用于找频繁2项集的集合L2

L2用于找L3 

直到不能再找到频繁k项集为止


基于文献的知识发现

闭合式知识发现过程是从A和C出发,寻找共同的中间词B。

开放式知识发现的过程是,对某个初始研究主题A,在MEDLINE的标题字段检索其相关文献,寻找与A在标题中共同出现的中间词B,通过筛选得到有一定意义的B,进而重复上述过程,得到目标词C。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容