一、数据挖掘的定义
数据挖掘(Data mining,简称DM),是指从大量的数据中,通过统计人工智能,机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
数据挖掘是一门交叉学科,覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销、其他学科等多门学科的知识。
数据挖掘的误区
认为:数据挖掘是某些大量数据操作的算法,这些算法能够自动地发现新的知识
数据挖掘需要非常高深的分析技能,需要精通高深的算法,需要熟练程序开发。
实际:数据挖掘是人们处理商业问题的某些方法,我们通过它来获得有价值的结果。
实际上,最好的数据挖掘工程师往往是那些熟悉和理解业务的人。
二、数据挖掘和数据分析的区别
数据分析:
定义:根据分析目的,用适当的分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
作用:现状分析、原因分析、预测分析
方法:对比分析、分组分细、交叉分析、回归分析等
结果:指标统计量结果,如综合、平均值等
数据挖掘:
定义:从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
作用:解决四类问题:分类、聚类、关联、预测
方法:决策树、神经网络、关联规则、聚类分析等
结果:输出模型或规则
模型与算法:
模型:
- 定量:数学公式,用来描述需要解决的问题
- 定性:是包含一种或多种定义的规则,用于指导并帮助解决某类问题
算法:实现数据挖掘技术、模型的具体步骤与方法
三、数据挖掘常见问题
从商业角度,需要解决哪些问题?
用户流失预测——分类问题
促销活动响应——分类问题
目标市场细分——聚类问题
交叉销售提升——关联问题
未来销售预测——预测问题
(一)分类特点
- 分类型目标变量(Y)——有监督学习
- 使用已知目标分类的历史样本来训练
- 需要对未知分类的样本预测所属的分类
常见分类方法有:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归等
分类商业问题:
用户流失预测、促销活动响应、用户信用评估等
(二)聚类特点
- 无分类目标变量(Y)——无监督学习
- 物以类聚思想
常见聚类算法有:划分算法、层次聚类、密度聚类、网格聚类、基于模型聚类等
聚类商业问题:
目标市场细分、现有客户细分等
(三)关联特点
- 无目标变量(Y)——无监督学习
- 基于数据项关联,识别频繁发生的模式
常见的关联算法:Aprior算法、Carma算法、序列算法
关联商业问题:
哪些商品同时购买几率高、如何提高商品销售和交叉销售等
(四)预测特点
- 数值型目标变量(Y)——有监督学习
- 需有已知目标值的历史样本来训练模型
- 对未知的样本预测其的目标值
常见的预测方法有:简单线性回归分析、多重线性回归分析、时间序列等
预测商业问题:
未来气温预测、GDP增长预测、收入、用户数预测等
四、数据挖掘流程
CRISP-DM数据挖掘方法论:
- 1、商业理解
- 2、数据理解
- 3、数据准备
- 4、模型构建
- 5、模型评估
- 6、模型部署
阶段一:商业理解 - 确定商业目标
- 确定挖掘目标
- 制定项目方案
阶段二:数据理解 - 数据收集
- 数据描述
- 数据探索
- 质量描述
阶段三:数据准备 - 数据导入
- 数据抽取
- 数据清洗
- 数据合并
- 变量计算
阶段四:模型构建 - 准备训练集合验证集
- 选择使用建模技术
- 建立模型
- 模型对比
阶段五:模型评估 - 技术层面:
设计对照组进行比较
评估指标:命中率、覆盖率、提升度等 - 业务经验
阶段六:模型部署 - 营销过程跟踪记录
- 观察模型衰退变化
- 引入新的特征优化迷行
- 模型写成程序固化到平台