数据挖掘（六）：预测

//
数据挖掘（六）：预测 - kingzone的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/kingzone_2008/article/details/8977837

数据挖掘的任务分为描述性任务（关联分析、聚类、序列分析、离群点等）和预测任务（回归和分类）两种。本文简介预测任务。
数据挖掘预测与周易预测有相似之处。周易建立在阴阳二元论基础上，对天地万物进行性状归类（天干地支五行论），精确到可以对事物的未来发展做出较为准确的预测。许多学者认为周易理论依据是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实。全息性是指事物的某一局部包含了整体的信息。例如，法医工作者对一根毛发进行化验，得出受害者或嫌疑人的许多身体特征。
周易预测通过对历史事件的学习来积累经验，得出事物间的相似性和关联性，从而对事物的未来状况做出预测。数据挖掘预测则是通过对样本数据（历史数据）的输入值和输出值关联性的学习，得到预测模型，再利用该模型对未来的输入值进行输出值预测。一般地，可以通过机器学习方法建立预测模型。DM（Data Mining）的技术基础是人工智能（机器学习），但是DM仅仅利用了人工智能（AI）中一些已经成熟的算法和技术，因而复杂度和难度都比AI小很多[2]。
机器学习：假定事物的输入、输出之间存在一种函数关系y=f(x, β)，其中β是待定参数，x是输入变量，则y=f(x, β)称为学习机器。通过数据建模，由样本数据（一般是历史数据，包含输入值和输出值）学习得到参数β的取值，就确定了具体表达式y=f(x, β)，这样就可以对新的x预测y了。这个过程称作机器学习。
数据建模不同于数学建模，它是基于数据建立数学模型，它是相对于基于物理、化学和其他专业基本原理建立数学模型（即机理建模）而言的。对于预测来说，如果所研究的对象有明晰的机理，可以依其进行数学建模，这当然是最好的选择。但是实际问题中，一般无法进行机理建模。但是历史数据往往是容易获得的，这时就可使用数据建模。
典型的机器学习方法包括：决策树方法、人工神经网络、支持向量机、正则化方法。其他常见的预测方法还有近邻法、朴素贝叶斯（属于统计学习方法）等
1 决策树方法
决策树算法的典型代表是ID3算法（Iterative Dichotomiser 3，迭代二叉树3代）是由Ross Quinlan与1986年提出。ID3算法建立在奥卡姆剃刀的基础上：越是小型的决策树越优于大的决策树（简单理论）。尽管如此，该算法也不是总是生成最小的树形结构，而是一个启发式算法。其核心思想是选取具有最高信息增益的属性（相对于信息熵最高的属性，可参考维基百科中二者的计算公式）作为当前节点的分裂属性。ID3算法构造的决策树对样本的识别率较高。
ID3算法的不足：1）ID3在搜索过程中不能回溯重新考虑选择过的属性，从而可能收敛到局部最优解而不是全局最优解；2）使用信息增益度量每次都选择取值数目最多的属性，这未必合理；3）ID3只能处理离散值，不能处理连续值；4）当训练样本过小或包含噪声时，容易导致过度拟合（overfitting）。
针对ID3的不足，Quinlan于1993年提出了ID3的改进算法：C4.5算法。C4.5主要特点：用信息增益比率作为选择标准；合并连续属性的值；可以处理缺少属性值的训练样本；运用不同的剪枝策略避免过度拟合；K折交叉验证等。剪枝策略可分为预剪枝（pre-pruning）和后剪枝（post-pruning）。预剪枝通过建立某些规则限制决策树的充分生长，后剪枝则是等决策树充分生长完毕后再剪去那些不具有一般代表性的叶节点或者分枝。实际应用中更多采用后剪枝。
2 人工神经网络
人工神经网络，Artificial Neural Networks（ANNs），是对人脑若干基本特性的抽象。它由大量神经元通过丰富的连接构成多层网络，用以模拟人脑功能。实际上，神经网络是不依赖于模型的自适应函数估计器，可以实现任意的函数关系。定量和定性的信息都可贮存在网络内的各神经元中，也就是说，它可以同时处理定量和定性知识，可以用于回归和分类。而且网络有很强的稳定性和容错性。
神经网络方法模拟人脑神经元结构，以MP模型和Hebb学习规则为基础。主要包括三种神经网络模型[2]：
（1）前馈式网络。它以感知机、反向传播模型、函数型网络为代表，可用于预测、模式识别方面。
（2）反馈式网络。它以Hopfield的离散模型和连续模型为代表，分别用于联想记忆和优化计算。
（3）自组织网络。它以ART模型、Koholon模型为代表，用于聚类分析等方面。
神经网络的不足：神经网络容易陷入局部最小点，易出现过度拟合而使得泛化能力较差；网络拓扑结构的确定没有成熟的理论指导；神经网络训练代价很高；其解不具有稀疏性且难以解释。
3 支持向量机
支持向量机，Support Vector Machines（SVM），是20世纪90年代Vapnik等人根据统计学习理论中结构风险最小化原则提出的一种机器学习方法。SVM最初是从分类问题提出的，后来扩展到求解回归问题。SVM是从线性可分的二分类问题开始的，再逐步向线性不可分问题、非线性问题深入，最后推广到线性和非线性回归问题建模。
对于二次规划的求解可采用SMO算法。对于回归问题，需要依靠不敏感损失函数。
SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势。
支持向量机方法是在机器学习理论指导下专门针对有限样本设计的学习方法，不仅对于小样本问题可以得到最优解，而且SVM模型具有很强的泛化能力。更为突出的是SVM最终转化为求解一个凸二次规划问题，在理论上可以得到全局最优解，克服了一些传统方法（如神经网络方法）可能陷入局部极值的不足。虽然SVM与神经网络相比有明显优势，但在实际应用中还存在一些问题，比如对于大规模的数据集，由于SVM要解凸二次规划而使算法效率很低，甚至无法进行；SVM对奇异值的稳健性不高；SVM的解不具有稀疏性，存在着大量冗余支撑向量；其参数没有好的选择策略。
4 正则化方法
针对上述神经网络和SVM的不足，提出了一些满足不同性能要求的基于正则化的框架模型，其典型代表有Lasso模型（Least Absolute Selection and Shrinkage Operator模型）和推广的Lasso模型、L1/2正则化模型及其迭代阈值算法等。
Lasso方法用模型系数的绝对值函数作为惩罚来压缩模型系数，使绝对值较小的系数自动压缩为0，这样得到的模型具有稀疏性，从而同时实现显著性变量的选择和对应参数的轨迹。Lasso模型采用平方损失函数而导致其稳健性较差，而且在很多应用场合（如分类问题）损失函数不宜采用平方损失，因此对Lasso模型进行推广，使用其他损失函数，可应用于回归问题和分类问题。
Lasso模型和推广的Lasso模型都属于L1正则化模型，是凸优化问题，有很多算法可以求解，但梯度Boosting算法最实用。L1/2正则化模型比L1正则化模型的解更稀疏，虽然它是非凸优化问题，难以求解，但使用L1/2迭代阈值算法可巧妙地对其求解。

参考资料：
[1]《大话数据挖掘》
[2]《数据仓库技术与联机分析处理》

最后编辑于：2017.12.05 20:16:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,265评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,078评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,852评论 0赞 347
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,408评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,445评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,772评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,921评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,688评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,130评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,467评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,617评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,276评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,882评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,740评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,967评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,315评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,486评论 2赞 348

数据挖掘（六）：预测

推荐阅读更多精彩内容