统计学方法(李航)笔记

1.学习方法三要素

    1.1模型

        学习的条件概率分布,或决策函数

    1.2策略

        按照什么样的准则学习,或者选择最优模型,引入损失函数和风险函数

        1.2.1损失函数:度量模型一次的好坏

        

        1.2.2风险函数(期望损失):度量平均意义下模型预测的好坏

    1.3算法


2.过拟合与模型选择

    过拟合是学习时选择的模型包含的参数过多,导致这一模型对已知数据预测的很好,但对      于位置数据预测很差的现象


3.正则化与交叉验证

    正则化是结构风险最小化策略的实现,在经验风险上加一个正则化项或惩罚项

    3.1正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大

        

4.交叉验证

        另一种常用的模型选择方法就是交叉验证(cross validation)

        4.1样本充足

            a.训练集(training set)

            b.验证集(validation set):模型的选择

            c.测试集(test set):模型的评估

       4.2交叉验证(样本不足)

                重复使用数据,切分为训练集和测试集

                a. 简单交叉验证:随机分为训练集和测试集

                b. S折交叉验证(应用最多)

                    1.随机将数据分为S个互不相交的大小相同的子集

                    2.利用S-1个子集的数据训练模型,余下的子集测试模型

                    3.这一过程的S种可能重复进行,

                    4.选出S次种平均测试误差最小的模型

                c. 留一交叉验证:S=N(N数据容量)


5.泛化能力

    学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力

        5.1泛化误差:反映了学习方法的泛化能力,学习到模型的期望风险

        5.2泛化误差上界

            学习方法的泛化能力分析往往是通过烟酒繁华乌哈的概率上界进行的,简称泛化误差              上界。比较两种学习方法的泛化误差上界的大小来比较优劣

6.生成模型与判别模型

    监督学习的


7.分类问题

        监督学习的核心问题,输出变量Y取有限个离散值时,预测问题便成为分类问题


8.回归问题

9.K近邻

        对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决方式进行预测


10.朴素贝叶斯法

        基于贝叶斯定理与特征条件独立假设的分类方法。

        10.1 首先基于特征条件独立假设学习输入/输出的联合概率分布

        10.2 然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y


            注:后验概率:事情已经发生了,事情发生可能有很多原因,判断事情发生时由哪个                   原因引起的概率。


11.朴素贝叶斯法的参数估计

        11.1极大似然估计

                极大似然估计,通俗理解,就是利用已知的样本结果信息,反推最具有可能(最                    大概率)导致这些样本结果出现的模型参考值!

                换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:                    模 型已定,参数未知。https://zhuanlan.zhihu.com/p/26614750

            11.2贝叶斯估计

                    用极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响到后验概                      率的计算结果,使分类产生偏差。采用贝叶斯估计可解决这个问题。

12.决策树模型

        决策树是一种基本的分类与回归方法,本文主要讨论用于分类的决策树。

        步骤:特征选择,决策树的生成,决策树的修剪。

13.决策树特征选择问题

        通常使用 信息增益,信息增益比

        13.1信息增益

                熵(entropy)是标识随机变量不确定性的度量。

                

                条件熵H(Y|X) 表示在已知随机变量X的条件下,随机变量Y的不确定性

                当熵和条件熵中的概率由数据估计(特别是极大似然估计),熵与条件熵分别称                    为经验熵和条件经验熵

                   

                互信息:熵H(Y)与条件熵H(Y|X)之差

        13.2信息增益比

                信息增益的大小是相对于训练数据集而言的,没有绝对意义,在分类问题困难                        时,也就是说在训练数据集的经验熵大的时候,信息增益值会偏大,反之偏小,                    使用信息增益比(informationgain ratio)可以对这一问题进行校正。

                

14.决策树的生成

    14.1 ID3算法

            ID3算法的核心是在决策树各个节点上用信息增益选择特征,递归构建

            a.从根节点开始,对节点计算所有可能特征的信息增益,选择信息增益最大的特征作                为节点的特征,由该特征的不同取值建立子节点

            b. 再对子节点递归调用以上方法,直到所有特征的信息增益均很小或者没有特征   可                 以选为止。

        缺点:ID3只有树的生成,容易产生过拟合

    14.2 C4.5

            C4.5算法与ID3相似,只是在选择特征的时候,选择信息增益比

    14.3 CART分类与回归树 (classificationand regression tree,CART)

            CART同样由特征选择、树的生成及剪枝组成,既可用于分类也可用于回归。

            步骤:

                    1.决策树生成:基于训练集生成决策树,生成的树尽量大

                    2.决策树剪枝:用验证集对生成的树进行剪枝并选择最优子树,用损失函数最小                             作为剪枝的标准。

15.决策树的剪枝

    决策树生成算法递归产生决策树,这样产生的树往往对训练数据的分类很准确,对未知          的测试数据的分类没有那么准确,容易出现过拟合。解决这个问题的办法是考虑决策树的      复杂度,对决策树进行剪枝。

16.逻辑回归

    

    

17.支持向量机(SVM)

        SVM是一种二分类模型,它的基本模型是定义在特征空间上间隔最大的线性分类器。

        SVM学习的基本想法是求解能够正确划分训练数据集并且几个间隔最大的分离超平面

18.提升方法(boosting)

        提升(boosting)方法是一种常用的统计学习方法,应用广泛且有效。在分类问题                  中,它通过改变训练样本的权重,学习多个分类器,将这些分类器进行线性组合,提              高分类性能。

                基本思想:一个复杂的任务,多个专家的判断综合判断,要比其中任何一个专家             单 独判断的好。俗称“三个臭皮匠顶个诸葛亮”


19.提升方法AdaBoost算法("AdaptiveBoosting"(自适应增强))

        它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被  用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

        Adaboost算法步骤:

                1.初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权值:1/N

                2.训练弱分类器。具体训练过程中,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它的权值就被降低;相反,如果某个样本点没有被准确地分类,那么它的权值就得到提高。然后,权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去

                3.将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。

20.EM算法(Expectation Maximization)期望极大算法

            用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。

如果概率模型变量都是观测变量,那么给定数据,直接可以用极大似然估计法;

当模型含有隐变量时,用EM算法。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容