为什么要进行数据挖掘?
我们正生活在一个大数据时代,海量的商业、社会、工程、医疗、科学以及互联网数据正在不断的产生。大数据中蕴含了丰富的知识,可以帮助我们更好的进行商业决策、科学研究、医疗决策等等。但是,这些知识通常不是显而易见的,需要采用一定的方法从大数据中进行获取。数据挖掘就承担了这样的作用,负责从海量数据中发掘有价值的金矿。所以说,数据挖掘是大数据分析中最重要的技术之一。
数据挖掘是什么?
简单的说,数据挖掘就是从大量数据中发现知识的过程,这里的知识可以是有价值的信息或者模式。整个知识发现的过程可以总结为以下步骤:
- 数据清理:消除噪声并删除不一致数据
- 数据集成:多种数据源的数据组合在一起,通常会统一储存在数据仓库中
- 数据选择和变换:根据任务选择合适的数据,并变换为适合数据挖掘的形式
- 数据挖掘:发现数据中的信息和模式
- 模式评估:根据某种度量指标,筛选有价值的模式
- 知识表示:将挖掘到的知识以易于理解的形式向用户展示,如可视化
概括来说,一个完整的数据挖掘过程包括如下步骤:首先,集成不同数据源的数据,并进行数据预处理,得到易于数据挖掘的数据;其次,运用数据挖掘技术得到数据中的信息和模式,这些技术包括关联规则分析、分类、聚类、时序分析等;再次,评估挖掘得到的模式,找出其中感兴趣的、有价值的知识;最后,运用可视化等技术表示知识。
数据挖掘中的技术
数据挖掘是一个学科交叉的技术,它广泛吸取了统计学、机器学习、数据库技术、分布式计算/云计算、模式识别、信息检索、可视化等领域的大量技术。
数据挖掘的应用
数据挖掘的应用非常广泛,包括金融、保险、电信、互联网等领域都有它的身影,而且覆盖面不断的扩大。典型的应用包括:网页点击分析、金融用户信用评估、电信流量分析、设备故障分析和预测等等。