机器学习基础知识和常用名词解释

机器学习入门的基础知识，包括常见名词的解释（线性回归、容量、过拟合欠拟合、正则化、超参数和验证集、估计、偏差和方差、最大似然估计、KL散度、随机梯度下降）

欢迎关注我的微信公众号“人小路远”哦，在这里我将会记录自己日常学习的点滴收获与大家分享，以后也可能会定期记录一下自己在外读博的所见所闻，希望大家喜欢，感谢支持！

1、数值计算基础

计算机求解问题的步骤：

1、根据实际问题建立数学模型；（应用数学）

2、由数学模型给出数值计算方法；（计算数学）

3、根据计算方法编制算法程序在计算机上算出结果。

数值问题：是输入和输出数据之间的函数关系的一个确定而无歧义的描述。可以理解为：输入和输出均为数据的数学问题。

上溢：当大量级的数被近似为无穷大时发生上溢。

下溢：当接近零的数被四舍五入为零时发生下溢。

image-20200217185055906.png

image-20200217185108033.png

优化：改变x以最小化或最大化某个函数f(x)的任务。

目标函数：需要最小化或最大化的函数。可描述为：

$\frac{1}{N}\cdot\sum^N_{i=1}|y_i-f(x_i)|$ + 正则化项

成本（cost）或损失（loss）：为了训练模型，我们需要定义一个指标来评估这个模型。但通常定义指标来表示一个模型是坏的，这个指标称为成本（cost）或损失（loss），然后尽量最小化这个指标。

损失函数：一般针对单个样本，可描述为：

代价函数，一般针对总体，可描述为：

基于梯度的优化方法：延方向导数的方向是上升/下降最快的方向。

驻点：局部最大/最小值点

最值点：全局最大/最小值点

2、机器学习基础

概念：

致力于研究如何通过计算的手段，利用经验来改善系统自身性能的学科和方法。
对于某类任务T和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E改进后，它在任务T上由性能度量P衡量的性能有所提升。

任务T：计算机要解决的问题。

学习：获得完成任务能力的过程。

样本：量化特征的数据集合。

分类：预测已知输入的类别。预测为离散值时，此类学习任务成为分类。

回归：预测的为连续值时，此类学习任务称为回归。

聚类：按照潜在标准划分为不同类型组，称为聚类学习。

训练集：训练数据模型的数据集。

测试集：评估模型性能P的数据集。

无监督学习：训练含有很多特征的数据集，然后学习出这个数据集上有用的结构性质。

监督学习：训练含有很多特征的数据集，数据集中的样本都有一个标签。

数据集的表示：通过设计矩阵，行向量表示一个样本，每行中的每列元素表征该样本某个特征数字化的结果。

3、线性回归

定义：利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。描述为：
$\hat y = w^Tx+b$

其中， $\hat y$ 为预测y的取值。

机器学习任务：通过样本训练，确定参数 $w^T$ 和b

均方误差(mean-square error, MSE)：度量模型性能的常用方法，反映估计量与被估计量之间差异程度的一种度量。记为：
$MSE（test）=\frac{1}{n}\sum_{i=1}^n(\hat y(test)-y(test))^2$

$MSE = E[(\hat\theta_m-\theta)^2 ]$

正规方程：通过解梯度为0时的向量方程，直接求得驻点位置。
$\nabla_wMSE_{train}=0$

解得：
$w=(X^{(train)T}X^{(train)})^{-1}X^{(train)T}y^{(train)}$

image-20200217181933327.png

4、容量、过拟合和欠拟合

泛化：训练模型在未观测到的输入上表现良好的能力。

训练误差：模型在训练集上表现出的误差。

泛化误差：新输入数据的误差期望。通常通过在测试集上的性能来评估泛化误差。

决定机器学习算法好坏的两个因素：

降低训练误差；
缩小训练误差和测试误差的差距。

欠拟合（underfitting）：模型不能再训练集上获得足够低的误差；

过拟合（overfitting）：训练误差和测试误差的差距太大。

容量（capacity）：指模型拟合各种函数的能力。

容量不足的模型不能解决复杂问题；容量高的模型能够解决复杂任务，但当其容量高于任务所需时，有可能会过拟合。

image-20200217144303854.png

5、正则化

没有免费午餐定理：在所有可能的数据生成分布上平均之后，每一个分类算法在未事先观测的点上都有相同的错误率。

正则化（λ）：通过引入权重衰减，来修改训练标准，突出学习算法的偏好。目的是为了降低模型的泛化误差。

image-20200217144457487.png

6、超参数和验证集

超参数：指不通过学习学得，而直接设定或指定的参数。适用于控制模型容量的所有参数。这些参数总是趋向于最大可能的模型容量，导致过拟合。

验证集：从训练集中分出，用于调整超参数的数据集。

image-20200217183644758.png

7、估计、偏差和方差

点估计：输入数据样本的函数，估计出的模型中的参数值。记为：
$\hat\theta_m = g(x^{(1)},…,x^{(m)})$

偏差：参数的点估计的数学期望与参数真实值之间的差。记为：
$bias(\hat\theta_m) = E(\theta_m) - \theta$

偏差度量偏离真实函数或参数的误差期望；方差度量数据上任意特定采样可能导致的估计期望的偏差。

方差（Variance）

均方误差：权衡偏差和方差的方式实现误差估计。记为：
$MSE = E[(\hat\theta_m-\theta)^2 ]=Bias(\hat\theta_m )^2+Var(\hat\theta_m )$

image-20200217180743653.png

8、最大似然估计

似然函数：给出输出x时，关于θ的似然函数L(x,θ)等于给定参数θ后变量X的概率，即：
$L(x,\theta)=P(X=x|\theta)$

最大似然估计：在θ的所有可能取值中，找到一个能使数据出现的“可能性”最大的值。

9、KL散度

KL散度：训练集上的经验分布 $\hat p_{data}$ 和模型分布之间的差异的度量方式。记为：
$D_{KL}(\hat p_{data}||p_{model})=E_{x\sim\hat pdata}[log\hat p_{data}(x)-logp_{model}(x)]$

最小化散度：最小化分布间的交叉熵。即只用最小化部分：
$-E_{x\sim\hat pdata}[logp_{model}(x)]$

10、随机梯度下降

问题：梯度下降当样本空间很大时，训练过程消耗过大。

思路：每次训练不必采用全部样本数据，而是均匀抽取一部分样本训练，通过大量的训练步骤，使小批量数据训练的模型拟合全部样本。

解决方法：

随机梯度下降（一次选一个样本）
批梯度下降（一次选小批量样本）
……

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345