直播记录:
- 判断是监督学习还是非监督学习
- 判断是分类问题 还是回归问题
线性回归原理推理。
- 最小二乘法算得最小
- 几何解释:
真实值Y 与预测值y的差距最小的点:Y-y的向量垂直于x所在的平面。
所以,即:
- 概率角度:
极大似然估计
想办法让观察样本出现的概率最大,转换为数学问题。
根据统计结果反推事件发生的概率。
回归分析 谢宇
假设检验入门书 女士品茶
回归增强 GAM
引用库:pygam
fit 是模型拟合
fit_transform 是对数据的变换。
关注模型结果,主要关注自变量对因变量变化是否显著:
Significance codes: 0 '' 0.001 '' 0.01 '' 0.05 '.' 0.1 ' ' 1
决策树
通过X值的划分,找到最小cost。 所以决策树的图应该都是在某个X对应的轴划一刀。左边就不是决策树
- 树模型可以直接做定性的特征而不需要像线性回归一样哑元化。
- 树模型能很好处理缺失值和异常值,对异常值不敏感,但是这个对线性模型来说却是致命的。
“哑元化”
通常根据模型的需要,类别型特征需要进行哑变量处理,即按照特征类别进行编码,一般一个类别为k的特征需要编码为一组k-1【避免引起多重共线性】个衍生哑变量,这样就可以表示特征内部所有的类别(将其中基准比较类设为0,当k-1个哑变量都为0时,即为基准类)。
SVR
模型的方差与偏差
Bias和Variance分别从两个方面来描述我们学习到的模型与真实模型之间的差距。
Bias是用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。
Variance是不同的训练数据集训练出的模型输出值之间的差异。
方差的数学定义:
方差的含义:方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
偏差的数学定义:
偏差的含义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。
推导公式,为啥黑色部分,期望为0?