数据挖掘概况

一、数据挖掘的定义

数据挖掘(Data mining,简称DM),是指从大量的数据中,通过统计人工智能,机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
数据挖掘是一门交叉学科,覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销、其他学科等多门学科的知识。

数据挖掘的误区

认为:数据挖掘是某些大量数据操作的算法,这些算法能够自动地发现新的知识
数据挖掘需要非常高深的分析技能,需要精通高深的算法,需要熟练程序开发。
实际:数据挖掘是人们处理商业问题的某些方法,我们通过它来获得有价值的结果。
实际上,最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

二、数据挖掘和数据分析的区别

数据分析:

定义:根据分析目的,用适当的分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
作用:现状分析、原因分析、预测分析
方法:对比分析、分组分细、交叉分析、回归分析等
结果:指标统计量结果,如综合、平均值等

数据挖掘:

定义:从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
作用:解决四类问题:分类、聚类、关联、预测
方法:决策树、神经网络、关联规则、聚类分析等
结果:输出模型或规则

模型与算法:

模型:

  • 定量:数学公式,用来描述需要解决的问题
  • 定性:是包含一种或多种定义的规则,用于指导并帮助解决某类问题

算法:实现数据挖掘技术、模型的具体步骤与方法

三、数据挖掘常见问题

从商业角度,需要解决哪些问题?

用户流失预测——分类问题
促销活动响应——分类问题
目标市场细分——聚类问题
交叉销售提升——关联问题
未来销售预测——预测问题

(一)分类特点
  • 分类型目标变量(Y)——有监督学习
  • 使用已知目标分类的历史样本来训练
  • 需要对未知分类的样本预测所属的分类
    常见分类方法有:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归等
    分类商业问题:
    用户流失预测促销活动响应用户信用评估等
(二)聚类特点
  • 无分类目标变量(Y)——无监督学习
  • 物以类聚思想
    常见聚类算法有:划分算法、层次聚类、密度聚类、网格聚类、基于模型聚类等
    聚类商业问题:
    目标市场细分现有客户细分等
(三)关联特点
  • 无目标变量(Y)——无监督学习
  • 基于数据项关联,识别频繁发生的模式
    常见的关联算法:Aprior算法、Carma算法、序列算法
    关联商业问题:
    哪些商品同时购买几率高如何提高商品销售和交叉销售等
(四)预测特点
  • 数值型目标变量(Y)——有监督学习
  • 需有已知目标值的历史样本来训练模型
  • 对未知的样本预测其的目标值
    常见的预测方法有:简单线性回归分析、多重线性回归分析、时间序列等
    预测商业问题:
    未来气温预测GDP增长预测收入、用户数预测等

四、数据挖掘流程

CRISP-DM数据挖掘方法论:

  • 1、商业理解
  • 2、数据理解
  • 3、数据准备
  • 4、模型构建
  • 5、模型评估
  • 6、模型部署
    阶段一:商业理解
  • 确定商业目标
  • 确定挖掘目标
  • 制定项目方案
    阶段二:数据理解
  • 数据收集
  • 数据描述
  • 数据探索
  • 质量描述
    阶段三:数据准备
  • 数据导入
  • 数据抽取
  • 数据清洗
  • 数据合并
  • 变量计算
    阶段四:模型构建
  • 准备训练集合验证集
  • 选择使用建模技术
  • 建立模型
  • 模型对比
    阶段五:模型评估
  • 技术层面:
    设计对照组进行比较
    评估指标:命中率、覆盖率、提升度等
  • 业务经验
    阶段六:模型部署
  • 营销过程跟踪记录
  • 观察模型衰退变化
  • 引入新的特征优化迷行
  • 模型写成程序固化到平台
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,914评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,935评论 2 383
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,531评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,309评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,381评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,730评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,882评论 3 404
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,643评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,095评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,448评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,566评论 1 339
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,253评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,829评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,715评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,945评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,248评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,440评论 2 348

推荐阅读更多精彩内容