十大机器学习算法的优缺点

C4.5算法

C4.5算法的核心思想是ID3算法，是ID3算法的改进：

用信息增益率来选择属性，克服了用信息增益来选择属性时变相选择取值多的属性的不足；

在树的构造过程中进行剪枝；

能处理非离散化数据；

能处理不完整数据。

优点：

产生的分类规则易于理解，准确率高。

缺点：

在构造过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效；

C4.5算法只适合于能够驻留内存的数据集，当训练集大得无法在内存容纳时，程序无法运行。

K-means算法

简单的聚类，吧n个对象根据他们的属性分为k个类，k

算法的核心是要优化失真函数J，使其收敛到局部最小值而不是全局最小值：

J=∑n=1N∑k=1Krnk||xn−uk||2,J=∑n=1N∑k=1Krnk||xn−uk||2,

rnkrnk表示n数据第k个类，ukuk是第k个类中心值。

然后求出最优的ukuk：

uk=∑rnkxn∑nrnkuk=∑rnkxn∑nrnk

优点：

算法速度快。

缺点：

分组的数目k是一个输入参数，不适合的k可能返回较差的结果。

朴素贝叶斯算法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

算法的基础是概率问题,分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

朴素贝叶斯假设是约束性很强的假设,假设特征条件独立,但朴素贝叶斯算法简单,快速, 具有较小的出错率。

在朴素贝叶斯的应用中,主要研究了电子邮件过滤以及文本分类研究。

K最近邻算法

缺点：

K值需要预先设定，而不能自适应

当样本不平衡时，如一个类的样本容量很大，二其他类样本容量很小，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。

该算法适用于对样本容量比较大的类域进行自动分类。

EM最大期望算法

EM算法是基于模型的聚类算法，是在概率模型中寻找参数最大思然估计的算法，其中概率模型依赖于无法观测的隐藏变量。

E步估计隐含变量，M步估计其他参数，交替将极值推向最大。

EM算法比K-means算法计算复杂，收敛较慢，不适合大规模数据集和高维数据，但比K-means算法计算结构稳定、准确。

EM算法经常用在机器学习和计算机视觉的数据集聚（data clustering）领域。

PageRank算法

Google的页面排序算法。

基于从许多优质的网页链接过来的网页,必定还是优质网页的回归关系,来判定所有网页的重要性。

一个人有越多牛逼的朋友，他牛逼的概率就越大。

优点：

完全独立于查询，只依赖于网页链接结构，可以离线计算。

缺点：

PageRank算法忽略了网页搜索的时效性；

旧网页排序很高，存在时间长，积累了大量的in-links，拥有最新资讯的网页排名却很低，因为它们几乎没有in-links。

AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

算法本事该百诺数据分布来实现的，它根据每次训练集中每一个样本的分类是否正确，以及上一次的总体分类准确率，来确定没个样本的权值。

将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

算法流程：

先通过对N个训练样本的学习得到第一个弱分类器；

将分错的样本和其他的新数据一起构成一个新的N个训练样本，通过学习得到第二个弱分类器；

讲前面都分错的样本加上新的样本构成另一个新的N个训练样本集，通过学习得到第三个弱分类器；

如此反复，最终得到经过提升的强分类器。

目前 AdaBoost 算法广泛的应用于人脸检测、目标识别等领域。

Apriori算法

Apriori算法是一种挖掘关联规则的算法，用于挖掘其内涵的、未知的却又实际存在的数据关系，其核心是基于两阶段频集思想的递推算法。

Apriori算法的两个阶段：

寻找频繁项集；

有频繁项集找关联规则。

算法缺点：

在每一步产生侯选项目集时循环产生的组合过多,没有排除不应该参与组合的元素;

每次计算项集的支持度时,都对数据库中的全部记录进行了一遍扫描比较,需要很大的I/O 负载。

SVM支持向量机

支持向量机是一种基于分类边界的方法。

基本原理：

如果训练数据分布在二维平面上的点,它们按照其分类聚集在不同的区域。

基于分类边界的分类算法的目标是，通过训练，找到这些分类之间的边界。

对于多维数据（N维），可以将他们视为N维空间中的点，而分类边界就是N维空间中的面，称为超面。

线性分类器使用超平面类型的边界，非线性分类器使用超曲面。

支持向量机的原理是将低维空间的点映射到高维空间,使它们成为线性可分,再使用线性划分的原理来判断分类边界。在高维空间中是一种线性划分,而在原有的数据空间中,是一种非线性划分。

CART树

决策树的分类方法，基于最小距离的基尼指数估计函数，用来决定由该子数据集生成的决策树的拓展形。

如果目标变量是标称的，称为分类树；如果目标变量是连续的，称为回归树。

优点：

非常灵活，可以允许有部分错分成本，还可指定先验概率分布，可使用自动的成本复杂性剪枝来得到归纳性更强的树。

面对存在缺失值、变量数多等问题时，CART数显得非常稳健。

最后编辑于：2017.12.11 07:08:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,099评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,473评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,229评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,570评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,427评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,335评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,737评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,392评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,693评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,730评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,512评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,349评论 3赞 314
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,750评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,017评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,290评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,706评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,904评论 2赞 335

十大机器学习算法的优缺点

推荐阅读更多精彩内容