数据挖掘引论篇学习笔记

先从概念上了解数据挖掘

为什么进行数据挖掘

我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。
数据挖掘能把大型数据转化成知识
数据挖掘是信息数据的进化

可以挖掘什么样的数据

数据库数据

关系数据库是表的汇集,表中通常有大量关系数据

数据仓库数据

数据仓库是从一个或者多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点

事务数据

事务数据库的一个记录代表一个事务,比如顾客的一次购物

其他类型数据

比如多媒体数据等等...

可以挖掘什么类型的模式

特征化与区分

数据特征化

目标类数据的一般或者全部汇总,特征化的输出一般使用饼图、条形图、曲线图等等,比如汇总一年花费5000元以上的用户

数据区分

将数据对象的一般特征进行比较

挖掘频繁模式、关联和相关性

用于预测分析的分类与回归

分类:找出描述和区分数据类或者概念的模型,比如决策树
相关分析:试图识别与分类与回归过程显著相关的属性
回归:一种常用的数值预测的统计学方法

聚类分析

分析数据对象,不考虑类标号

离群点分析

对和一般数据特征明显不同的数据进行分析

使用的技术

统计学:研究数据的收集、分析、解释和表示
机器学习:分为监督学习、无监督学习和半监督学习三种
数据库系统与数据仓库
信息检索

面向什么类型的应用

哪里有数据,哪里就有数据挖掘

电子商务
web搜索引擎
等等..

数据挖掘面临的问题

1、挖掘方法
2、用户交互
3、有效性与可伸缩性
4、数据类型的多样性
5、数据挖掘与社会

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容