统计学习

《统计学导论——基于R语言》学习笔记（Ch01-02）

Chapter 1 引言

1.1 统计学介绍

统计学习（Statistic Learning），是一套以理解数据为目的的庞大的工具集。统计学习工具分为两类，有指导（supervised）的学习和无指导的（unsupervised）学习。

（1）有指导的统计学习工具主要有两种用途：一是面向预测的统计模型的建立，二是对一个或者多个给定的输入估计某个输出（有X有Y）。（2）无指导的统计学习问题中，有输入数据但是没有输出结果，从中可以学习到数据和结构的关系，是面向推测的统计模型的建立（只有X没有Y）

1.2 统计学简史

19世纪初期，勒让德（Legendre）高斯（Gauss），最小二乘法，线性回归的最早形式。线性回归可用于预测定量变量，如一个的薪资水平等等。

1936年，费舍尔（Fisher）提出线性判别分析，可以预测定性变量，如病人的死活，股市的涨跌等。

20世纪40年代，许多学者提出替代线性判别分析的方法，如逻辑斯蒂回归。

20世纪70年代初，内德尔（Nelder）和韦德伯恩（Wedderburn）提出一个新概念——-广义线性模型。

20世纪80年代中期，分类回归数，非线性模型。

1986年，广义可加的模型。

Chapter 2 统计学习的基本内容

输入变量（input vairable）X：有几个不同称呼，如预测变量、自变量、属性变量、有时候就称为变量。输出变量Y：我们称为响应变量或者因变量。

Y = f (x) + $\varepsilon$ ，f 为X提供给Y的系统信息， $\varepsilon$ 为随机误差项。

2.1 什么条件需要估计函数f

估计函数f的主要原因有两个：预测（prediction）和推断（inference）

预测（只需要预测Y值，不需要知道X与Y的关系，选择光滑模型)

（限定性强且曲线平坦的模型比锯齿形曲线有更小的自由度，也就是更光滑，线性回归就是限定性比较强的模型）

许多情形下，输入集X是现成的，但是输出Y是不易获得的。这是，由于误差项的均值为0（ $\varepsilon$ = 0)，那么可以通过下式预测Y：

$\hat{Y}$ = $\hat{f}$ （X）

这里的 $\hat{Y}$ 是对Y的预测， $\hat{f}$ 是对f的预测， $\hat{f}$ 是黑箱。如果该黑箱能提供准确的预测Y，并不会十分追求f的确切形式。

$\hat{Y}$ 做为响应变量Y的预测，其精确性依赖两个量，一个是可约误差（reducible error），另一个是不可约误差（irreducible error）。

可约误差可以降低（选用合适的模型），不可约误差无法降低（样本噪声），不可约误差提供了Y预测精度的一个上界，这个上界在实践中是未知的。

推断（想知道f，即X和Y的关系，选择欠光滑模型)

可能涉及的问题有

1）哪些预测变量与响应变量有关？

2）响应变量与每个预测因子之间的关系是什么？

3）Y与每个预测变量的关系能否用一个线性方程概括，还是需要更加复杂的形式？

2.2 如何估计f

估计方法可以分为两类：参数方法和非参数方法

参数方法（选择模型——数据拟合)

参数方法是一种基于模型估计的两阶段方法。

（1）首先，假设函数f具有一定的形式或形状，例如一个常用的假设是f是线性的，具有如下的形式

f（X) = $\beta 0$ + $\beta 1$ X1 + $\beta 2$ X2 + ……+ $\beta p$ Xp

一旦假设f是线性的，估计f的问题就被简化了。不需要估计任意一个p维函数，只需要估计系数β。

（2）一旦模型被选定后，就需要用训练数据集去拟合或者训练模型。在线性模型中就是估计参数β的值。最常用的方法是最小二乘法。

参数方法的缺陷是选定的模型并非与真正的f在形式上是一致的，假如我们选择的模型与真实的f差距过大，这样估计的效果也很差。此类问题的解决方式之一是选择光滑模型拟合不同形式的函数f，拟合光滑度更强的模型需要更多的参数估计，可能会导致过拟合现象的出现。

非参数方法

非参数方法不需要对函数f的形式事先做明确的假设。相反，这类方法追求的是最接近数据点的估计

非参数方法相较于参数方法的优点表现为：不限于函数f的具体形式，在更大的范围内选择更加适宜f形状的估计。

非参数方法的缺点是，无法将估计f的问题简化到仅仅对少数参数进行估计的问题，所以为了获得f更为精确的估计，往往需要大量的观测点。

2.3 预测精度和模型解释性的权衡

光滑度较高的模型，在一个较为广泛的函数形状范围内对f的估计。欠光滑的模型，在形式上收到限定，只能在一个相对较窄的函数范围内来对f进行估计。那么为什么会选择一个更受限定的方式而不是光滑模型来建模呢？若建模的目的在于推断，需要模型的解释性比较强，那么采用结构限定的模型（光滑度低的模型）。若建模的目的在于预测，则选择光滑度更高的模型更加接近实际的情况，是更好的选择。

2.4 指导学习和无指导学习

指导学习：对于每一个预测变量观测值x都有相应的响应变量y。建模的目的是通过建立预测变量和响应变量之间的关系，精准预测响应变量或者更好的理解响应变量和预测变量之间的关系。例如：线性回归，逻辑斯蒂回归，广义可加模型（GAM），提升方法和支持向量机（SVM）等方法。

无指导学习：只有预测变量的观测变量x，这些变量没有相应的响应变量与之对应。理解变量之间或观测之间的关系即可。例如：聚类分析。

2.5 回归和分类问题

变量分为定量和定性两种类型

定量变量呈数值型，例如年龄、身高或者收入、股票的价格等等。定性变量也称为分类变量，定性变量，如一个人的性别（男、女），所购买的产品（A、B、C）等。习惯将响应变量为定量的问题称为回归分析问题，将具有定性响应变量的问题定义为分类问题。但这并不是绝对的。

2.6 评价模型精度

2.6.1 拟合效果检验

对于一个给定的观测，需要定量测量预测响应值与真实响应值之间的接近程度，在回归中，最常用的评价准则是均方误差，其表达式如下：

MSE = $\frac{1}{n}$ $\sum_{i=1}^n$ $（x_{i} - \hat{f} (x_{i} )）^2$

其中 $\hat{f}(xi)$ 是第i个观测点上应用 $\hat{f}$ 的预测值。如果预测的响应值与真实的响应值很接近，则均方误差会非常小。所以均方误差是用来评估预测值和真实值偏差程度的一个指标。在实践之中，计算训练均方误差（training MSE）相对容易，而估计测试均方误差（test MSE）相对困难。

训练均方误差是用训练数据集计算出来，而这些训练数据集是用来拟合模型的，所以预测精准的程度一般比较高。一般而言，我们并不关心这个模型在训练集中表现如何，而真正感兴趣的在于将模型用于测试数据获得怎样的预测精度。这个时候，我们需要选择使测试均方最小的模型，测试均方误差决定了这个模型的推广性，测试均方误差的表达式如下：

Ave $(\hat{f}(x_{0} ) - y_{0} )^2$

测试均方误差需要掌握大量的测试样本数据，计算如上的函数。该模型的测试均方误差最小，不一定会是该模型的训练均方误差最小。

当模型的光滑度增加时，观察到训练均方误差单调递减，测试均方误差呈U形分布（先减后增），这是统计学习的一个基本特征。当所建的模型有一个较小的训练均方误差，但是却有一个较大的测试均方误差，就称为该数据的过拟合。

2.6.2 偏差-方差权衡

期望测试均方误差能分解成三个基本量的和，分别为： $\hat{f}(x_{0} )$ 的方差、 $\hat{f}(x_{0})$ 的偏差的平方和和误差项 $\varepsilon$ 的方差，具体而言：

E $(y_{0} - \hat{f} (x_{0} ) )^2$ = Var( $\hat{f}(x_{0} )$ ) + $[Bias(\hat{f(x_{0} )} )]^2$ + Var( $\varepsilon$ )

E $(y_{0} - \hat{f} (x_{0} ) )^2$ 是模型的期望测试均方误差，是用大量的数据集重复估计f后求的平均测试均方误差。

为使期望测试误差达到最小，需要选择一种方法使偏差(bias)和方差(variance)同时达到最小。偏差：训练模型得到的样本预测偏离真实值的程度（由算法或者模型本身带来）。方差：输入不同的数据集输入模型时，模型预测值之间的差别大小。也就是说这个模型依赖样本的程度，如果方差过高，模型的推广性就差。

一般而言，使用光滑度更高的方法，所得的模型方差会增加，偏差会减少。这两个比值的相对变化率会导致测试均方误差整体的增加或者减少。可以调整模型的光滑度使期望均方误差降低。在实践中，要使一个统计学习模型测试性能好，就要考虑偏差、方差和测试均方误差之间权衡的问题，使该模型有较小的偏差和方差。

2.6.3 分类模型

贝叶斯分类器

贝叶斯分类器是简单的分类模型，它将每个观测值分配到它最大可能所在的类别中，将这个类作为它的预测值即可，这里的响应变量为定性变量。换句话说，将一个待判的 $x_{0}$ 分配到下面的式子中的最大的j类上是合理的。

$P_{r}$ (Y = j | X = $x_{0}$ )

其实这就是一个条件概率，它给定了观测向量 $x_{0}$ 条件下Y = j的概率。比如说，在一个二分类的问题中，有两个可能的响应值，一个类别称为1，另一个为2. 若 $P_{r} (Y=1 | X =x_{0} )$ > 0.5，（在X= $x_{0}$ 的条件下Y=1的概率大于0.5），该贝叶斯分类器就将该观测值的类别预测为1，否则预测类别为2.

但是现实生活很难知道给定X后Y的条件分布，所以现实中贝叶斯分类器的应用是不可能的，贝叶斯的方法对于其他方法而言是一种难以达到的黄金标准。贝叶斯分类器将产生最低的测试错误率，称为贝叶斯错误率，贝叶斯错误率类似于不可约误差。

K最邻近方法（有Y可以做分类，没有Y可以做聚类）

许多方法尝试在给定X后先估计Y 的条件分布，然后将一个给定的观测分类到估计分布概率的最大类别中。其中一个方法就是K最邻近（KNN）分类器。给一个正整数K和一个测试观测值 $x_{0}$ ，KNN分类器从训练集中识别K个最靠近 $x_{0}$ 的点开始，用 $N_{0}$ 表示K个点的集合，然后对每个类别 j 分别用 $N_{0}$ 中的点估计一个分值作为条件概率的估计，这个值等于 j：

$P_{r} (Y=j | X =x_{0} )$ = $\frac{1}{K } \sum_{i\epsilon N_{0} }I(y_{i} = j )$

最后，对KNN方法运用贝叶斯分类将观测值 $x_{0}$ 分配到概率最大的类中。

举1个栗子，左图绘制了一个由6个蓝色和6个橙色观测值组成的小训练集。问题的目标是对黑色十字标记的点做出预测。假设K=3，那么KNN首先识别最靠近十字处的三个观测值。绿色圆形代表这三个点构成的领域。蓝色点的估计概率是2/3，橙色点的估计概率是1/3. 于是KNN预测黑色十字为蓝色。右图，当K=3时，将KNN方法用于 $X_{1}$ 和 $X_{2}$ 中所有可能的值，绘制相应的KNN决策边界。

K的选择对获得KNN分类器有根本性的影响。当 $\frac{1}{K }$ 增加时（K降低），模型的光滑度增加，训练错误率递减，测试错误率呈现为U形，递增后就出现了过拟合（过光滑）现象。

Chr 02 习题

1）梳理偏差、方差、训练误差、测试误差和贝叶斯（或不可约）误差曲线这几个概念。

误差（包括训练误差和测试误差）都等于偏差，方差与噪声的和。偏差：训练模型得到的样本预测偏离真实值的程度（由算法或者模型本身带来）。方差：输入不同的数据集输入模型时，模型预测值之间的差别大小。也就是说这个模型依赖样本的程度，如果方差过高，模型的推广性就差。训练误差：用训练数据集拟合模型计算得到的误差。测试误差：用测试数据集测试模型计算得到的误差。贝叶斯误差：样本噪声。他们的关系如下所示：

2）一个光滑度高的（或者光滑度低）的回归模型或者分类模型的优点和缺点是什么？什么情况下需要光滑度高的模型合适？

光滑度高的模型可以更好地拟合非线性情况，光滑度高的模型偏差小，方差大，容易造成过拟合的情况。光滑度高的模型适合拟合非线性模型，适合预测，

3）比较参数模型和非参数模型之间的不同。优缺点是什么？

参数方法将估计f的问题简化为对参数的估计，优点是比较简单，缺点是与实际的f可能会存在很大区别。适合推断。非参数方法追求接近数据点的估计优点是不限定函数f的具体形式，缺点是无法将估计f的问题简化到对少数参数进行估计，所以常常需要大量的观测点，适合预测。

最后编辑于：2020.02.26 16:16:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,188评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,464评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,562评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,893评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,917评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,708评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,430评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,342评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,801评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,976评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,115评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,804评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,458评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,008评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,135评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,365评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,055评论 2赞 355