线性(linear),指量与量之间按比例、成直线的关系,在数学上可以理解为一阶导数为常数的函数;非线性(non-linear)则指不按比例、不成直线的关系,一阶导数不为常数。
y=2x+1,若是线性,,结果为 1,3,5,7,9,那与自变量系数还有自变量的幂有关
从上可以看出,y=2x是,y=2x+1不是,只是一个一次函数
所以如何理解线性函数,如何理解线性模拟,,这个时候就不是线性函数了,为什么还成为线性模拟
拟合的线性模型与
今天我来介绍一种在机器学习中应用的比较多的模型,叫做广义线性模型(GLM)。这种模型是把自变量的线性预测
化能力还可以看成模型的信息压缩能力。这里涉及到解释为什么深度学习有效的一种假说,信息瓶颈(information bottleneck),说的是一个模型对特征进行压缩(降维)的能力越强,其就越更大的可能性做出准确的分类。信息压缩能力可以概括上述的四种关于泛化能力的解释,稀疏的模型因其结构而完成了信息的压缩,生成能力强,泛化误差低的模型因信息压缩而可能,而忽略无关特征是信息压缩的副产品
在机器学习中,正则化很容易理解,不管是L1还是L2,都是针对模型中参数过大的问题引入惩罚项。而在深度学习中,要优化的变成了一个个矩阵,参数变得多出了几个数量级,过拟合的可能性也相应的提高了。而要惩罚的是神经网络中每个神经元的权重大小,从而避免网络中的神经元走极端抄近路。
最直接的正则化是在损失函数中加入惩罚项,比如L2正则化,又称权重衰减(weight decay)关注的是权重平方和的平方根,是要网络中的权重接近0但不等于0,而在L1正则中,要关注的是权重的绝对值,权重可能被压缩成0。在深度学习中,L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。神经网络需要每一层的神经元尽可能的提取出有意义的特征,而这些特征不能是无源之水,因此L2正则用的多一些
神经网络中的泛化指的是什么?scale是什么呢?
正则项:正则化就是通过对模型参数进行调整(数量和大小),降低模型的复杂度,以达到可以避免过拟合的效果。正则化是机器学习中的一种叫法,其它领域内叫法各不相同,统计学领域叫惩罚项,数学领域叫范数。而正则项又包括两种,即一范数和二范数,就是L1和L2范数。
https://cloud.tencent.com/developer/article/1558607
区分一下回归和分类问题,线性模型是可以用来曲线拟合(回归)的,但是线性模型模型的分类一定是一条直线的,例如logistics模型。
问题:线性模型模型的分类,一定是一条直线的,例如logistic模型。
线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的,例如logistics模型
区分是否为线性模型,主要是看一个乘法式子中自变量x前的系数w,如果w只影响一个x,那么此模型为线性模型。或者判断决策边界是否是线性的
重点来了:采用L1范数则是lasso 回归,L2范数则是岭回归了。那么函数有啥区别呢?如下:
奥卡姆剃刀:作为一种思维理念,当然并不仅仅局限于某一些领域,事实上,奥卡姆剃刀在社会各方面已得到越来越多的应用。 奥卡姆剃刀同时也是一种生活理念。这个原理要求我们在处理事情时,要把握事情的本质,解决最根本的问题。尤其要顺应自然,不要把事情人为地复杂化,这样才 能把事情处理好。 爱因斯坦说:"如果你不能改变旧有的思维方式,你也就不能改变自己当前的生活状况。"当你用奥卡姆剃刀改变你的思维时,你的生活将会发生改变。 在运用奥卡姆剃刀时应牢记爱因斯坦的一句著名的格言:万事万物应该都应尽可能简单,但不能更简单。如果将这一理念与中国儒家的《中庸》思想结合起来,那么会使我们的行为更趋于完美