线性模型有很好的可解释性 (comprehensibility)
线性回归
对数线性回归
假设我们认为示例所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标 :
广义线性模型
logistic regression
logistic function
对数几率函数是一种 "Sigmoid 函数",它将 z 值转化为一个接近 0 或 1 的 y值并且其输出值在 z = 0 附近变化很陡。
Sigmoid 函数即形似 s 的函数。
logistic regression是直接对分类可能性进行建模,无需事先假设数据分布。这样就避免了假设分布不准确所带来的问题;它不是仅预测出"类别",而是可得到近似概率预测。
线性判别分析
思想是设法将样例投影到一条直线上 ,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。
令
其中
多分类学习
N 个类别 C1 , C2,••• , CN , 多分类学习的基本思路是拆解法,即将多分类任务拆为若干个二分类任务求解。
最经典的拆分策略有三种. "一对一" (One vs. One,简称 OvO) 、 "一对其余" (One vs. Rest,简称 OvR)和"多对多" (Many vs. Many,简称 MvM).
OvO最终结果可通过投票产生:即把被预测得最多的类别作为最终分类结果.
最常用的 MvM 技术"纠错输出码" (Error CorrectingOutput Codes,简称 ECOC).
编码:对 N 个类别做 M 次划分, 每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生 M 个训练集,可训练出 M 个分类器.
解码:M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码.将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果.
类别不平衡问题
指分类任务中不同类别的训练样例数目差别很大的情况。
方法:
1、再平衡
令 m十表示正倒数目, m一表示反倒数目
故而,可以令
则采用当真实样本总体的无偏采样时的分类器决策规则:
2、直接对训练集里的反类样例进行"欠采样" (undersampling)
3、对训练集里的正类样例进行"过采样" (oversampling)
优化——Lagrange multipliers
先考虑等式约束。
假定 x为 d 维向量,欲寻找 z 的某个取值x*,使目标函数 f(x) 最小且同时满足 g(x) = 0 的约束。从几何角度看,该问题的日标是在由方程 g(x) = 0 确定的 d-1 维曲面上寻找能使目标函数 f(x)最小化的点。
现在考虑不等式约束 g (x) ≤0。
对于 g(x) < 0 的 情形, 约束g(x) ≤0不起作用 ,可直接通过条件 ▽f(x ) = 0 来 获得最优 点;这等价于将 λ置零然 后对 ▽xL(x, λ) 置零得到最优点 . g(x ) = 0 的情形类似于 等式约束的分析。但需注意的是,此时 ▽f(x* ) 内方 向 必与 ▽g(x* )相反, 即存在常数λ >0 使得 ▽f(x* ) 十 λ ▽g(x* )= 0. 整合这两种情形,必满足 λg (x) = 0。可转化为在如下约束下最小化式拉格朗日函数 :