这个系列主要是平时看帖子遇见的机器学习相关的题做一个记录,可能比较杂乱,有些题来自七月在线相关帖子,七月在线 - 国内领先的人工智能教育平台 我会备注具体的来源。
1. 机器学习中,为何要经常对数据做归一化?
本题解析来源:http://www.cnblogs.com/LBSer/p/4440590.html
(1)归一化后加快了梯度下降求最优解的速度。
比如左图未做归一化,区间可能是[0, 1000], 等高线就非常的尖,当你用梯度下降寻求最优解的时候,很有可能走“之”字型的路线(垂直等高线走), 从而导致迭代很多次才能收敛。
比如右图,做了归一化后,等高线就比较圆,在梯度下降时间能较快的收敛。
(2)归一化有可能提高精度。
一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。
2.归一化的类型:
(1)线性归一化
这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。
(2)标准差标准化
个人觉得这种使用的多一些。
经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:
(3)非线性归一化
经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。
3. 如何解决梯度消失和梯度膨胀?
(1)梯度消失:
根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0。
比如sigmoid还有tanh函数,他们数轴的大部分区域都是平坦的,导数近乎于0。
可以采用ReLU(rectified linear units)激活函数 = max(x,0) 有效的解决梯度消失的情况。但是要注意x<0出现的神经元死亡问题。
ELU(Exponential Linera Unit)
(2)梯度膨胀:
根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大。
可以通过激活函数来解决。
4.下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )
A. 特征灵活 B. 速度快 C. 可容纳较多上下文信息 D. 全局最优
解答:首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模。
隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择。
最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉。
条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。
答案为B。
5.监督学习vs无监督学习
(1)监督学习:有训练样本的,样本有对应的标签集就是监督型学习,训练一个模型,再利用这个模型对未知的数据进行预测,例如分类和回归。比如:KNN,决策树,线性回归,逻辑回归,朴素贝叶斯。
(2)无监督学习:使用的数据是没有标记过的,即不知道输入数据对应的输出结果是什么。无监督学习只能默默的读取数据,自己寻找数据的模型和规律,比如聚类(把相似数据归为一组)和异常检测(寻找异常)。比如:Kmeans,PCA等。
(3)半监督学习:训练中使用的数据,只有一小部分是标记过的,而大部分是没有标记的。因此和监督学习相比,半监督学习的成本较低,但是又能达到较高的准确度。
(4)强化学习:使用未标记的数据,但是可以通过某种方法知道你是离正确答案越来越近还是越来越远(即奖惩函数)。
6. 协方差和相关性有什么区别?
来自知乎:https://www.zhihu.com/question/20852004
(1)协方差:
两个变量在变化过程中是同方向变化?还是反方向变化?
你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。
公式:
正向:
反向:
但很多时候X,Y运动是不规律的,需要累加起来,将每一时刻X-ux与Y-uy的乘积加在一起,其中的正负项就会抵消掉,最后求的平均值就是协方差了。通过协方差的数值大小,就可以判断这两个变量同向或反向的程度了。
如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。
(2)相关系数:
就是用X、Y的协方差除以X的标准差和Y的标准差。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
它可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
比如:
计算这两个图的协方差,第一种情况是15428.57,第二种情况是1.542857,协方差差出了一万倍,只能从两个协方差都是正数判断出两种情况下X、Y都是同向变化,但是,一点也看不出两种情况下X、Y的变化都具有相似性这一特点。所以使用相关系数。相关系数不像协方差一样可以在负无穷到正无穷间变化,它只能在+1到-1之间变化。所以就可以比较相似度。
7.线性分类器与非线性分类器的区别以及优劣
如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。
常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归。
常见的非线性分类器:决策树、RF、GBDT、多层感知机。SVM两种都有(看线性核还是高斯核)。
线性分类器速度快、编程方便,但是可能拟合效果不会很好。
非线性分类器编程复杂,但是效果拟合能力强。
8. 贝叶斯定理
https://blog.csdn.net/v_july_v/article/details/40984699
条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B)。
联合概率表示两个事件共同发生的概率。P(A, B).
边缘概率(又称先验概率)是某个事件发生的概率。比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
贝叶斯定理便是基于下述贝叶斯公式:
Google的拼写检查基于贝叶斯方法。
9.贝叶斯学派与频率学派有何不同?
比如打麻将:
只看下面有什么牌来决策的就是频率学派。而不光看下面有什么牌,还看这个牌是谁打出的,什么时候打出的,这个人打出所有牌友什么联系的,就是贝叶斯学派。
频率学派,其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。
贝叶斯学派,他们把参数θ视作随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。