机器学习的相关概念

一、概念

拟合，欠拟合，过拟合
- 拟合：测试机数据对于模型的匹配度，趋于欠拟合和过拟合之间；
- 欠拟合：学到的很少；
- 过拟合：学习过度；
方差，偏差
- 方差：描述数据的集中程度；
- 偏差：描述距离目标的远近程度；
模型 ≈ 规律 ≈ 方程系数 ≈ 参数权重(Weight)；
- 即：模型就是用来衡量一组量的重要程度的一组参数
机器学习 ≈ 模式识别；
算法 ≈ 方程；
拟合 ≈ 匹配；
训练 ≈ 解一组方程；

二、机器学习

什么是机器学习
- 官方的定义就不再说了，通俗地说，就是让机器像人一样的思考解决问题；稍微书面一点，机器学习对编程人员：让机器去解方程，寻找最优的一组系数(模型)；可以理解机器学习为数据挖掘的算法；
机器学习的范畴
- 机器学习是一门交叉学科，模式识别、数据挖掘、统计学习、计算机视觉、语音识别、自然语言处理等，每一个都是重量级的学科
机器学习的分类
- 监督学习（原始数据有y）
  - 分类学习
  - 回归学习
- 无监督学习（原始数据没有y）
  - 聚类学习
  - 降维学习
相关的Python库
- numpy：数学计算框架
- scipy：物理计算框架
- pandas：数据分析框架，主要用来分析表格数据
- matplotlib：绘图的框架
- scikit-learn：机器学习的框架
- tensorflow：谷歌开源出来的深度学习的框架
- keras：开源出来的深度学习的框架
术语理解
- 机器学习：根据一组参数(w:weight)寻找一个方程，使得随着参数x的变换，结果y尽可能近似于真实结果；利用图形的说法：寻找一条线，使得这条线在y方向上尽可能的离所有点的y值的平均值相近，即使得损失函数最小；那么我们求得的这个方程就是机器学习的核心目标，我们需要解决两个问题：①一组方程的系数；②方程的幂次：是几元几次方程；
  - 线性回归的损失函数：
    - 损失函数(LossFunction)也称为：目标函数、代价函数(CostFunction)：损失函数越小，总最大似然估计越大，我们的模型越准确；
    - 损失函数是一个凸函数；
    - 最小二乘法，(R)MSE((Root: 开根号) mean squared error)，平方均值损失函数(均方误差)；
    - 这里的公式在这里生成，简书中的数学公式(支持不是太好，凑合看吧，过段时间搭建自己博客)：①行内公式使用$包裹②块级公式使用$$包裹；
- 多元线性回归预测值与模型的关系：或者
  - $W$ ：weight，有时候使用 $θ$ 表示；
- 算法：在一定范围内上下浮动的系数构成的方程，参数也称为影响结果的维度；
- 线性回归：
  - 线性：一次方程的线性变换；
  - 回归：任意一个x轴上的点的y轴上的值求平均值构成的整体趋势；
- 最大似然估计：属于统计学范畴，用来求解样本集的概率密度函数的参数；似然：Likelihood；即：来估计m个样本中每条样本出现在正态分布中的概率,相乘起来就是m个样本出现在正态分布中的总似然；
  - 总似然等于所有概率的乘积，我们要获取总似然最小，即获取所有的概率最小，然而概率无解(实际的数据是离散的，数学上的微积分是连续的值)，当我们可以找到概率密度相乘最大的时候，就相当于找到了概率相乘最大，所以使用概率密度相乘最小替代概率最小；
  - 根据中心极限定理，假设样本之间是独立事件，误差变量(误差)随机产生，那么就服从正太分布，所以在求总似然的时候使用正太分布；
- 中心极限定理：属于概率论范畴，指的是大部分同一类事物的随机数据的分布渐近于正态分布，或者叫高斯分布；即事务的数据一般都是收敛的；但是有个条件是：各个样本数据之间是独立的；
- 真实值与预测值的关系：，即
  - $ε$ ：一组误差；
  - $y$ ：一组真实值；
  - ${\hat{y}}$ ：一组预测值；
  - 随机变量，样本足够多的情况下，根据中心极限定理，数据服从正态分布；
- 概率密度函数：用来衡量概率的几张程度的；每一个函数都有其对应的概率密度函数，分为两种：
  - 均匀分布(Uniform Distribution)；
  - 正态(高斯)分布(Normal (Gaussian) Distribution)，正态分布曲线上的点事该x的概率密度 $f(x)$ ，并非概率；
  - 其他分布...
  - 服从正态分布的概率密度函数为： $f(x)=\frac{1}{σ\sqrt{2π}}e^{-\frac{(x-μ)^{2}}{2μ^{2}}}$ ；
- 线性回归的损失函数的假设：样本独立，样本随机，正态分布；
- 线性回归问题解决方式：
  - 解析法：直接使用公式： $W=(X^{T}X)^{-1}X^{T}y$ 计算 $W$ 的值， $W$ 的值即线性方程系数，亦即模型Model；海量数据不适用；
  - 反复重试法：使用最多的就是梯度下降法(GD)；梯度下降法针对的是损失函数的，横坐标是 $θ$ ，纵坐标是 $J(θ)$ ；
- 理解思路：回归问题 → 中心极限定理 → 数据服从正态分布 → 损失函数最小 → 最大似然估计最大 → 概率密度最大 → 概率最大；
- 深度学习(DL: Deep Learning) 基于机器学习(ML: Machine Learning) 的人工神经网络(ANN: Artificial Neural Network)
- 梯度下降法(GD)：
  - 梯度下降公式: $\theta^{(t+1)} = \theta^{(t)} - \eta \cdot g$ ，其中 $\eta$ 是学习率，称为超参(hyper parameter)，取值一般比较小； $g$ 是损失函数具体一个点的导数；这个公式完全展开如下： $\theta_{j}:=\theta_{j} + \eta \cdot \frac{1}{m}\sum_{i=1}^{m}(y^{i}- h_{\theta}x^{i} )x_{j}^{i}$
  - $g$ 在阈值(threshold)以内的时候我们就停止迭代，即近似为0的时候就停止迭代；
  - 梯度下降法的步骤：
    1. 随机获取一个 $\theta$ 值；
    2. 当前 $\theta$ 的梯度 $g$ (当前点导数，即改点的斜率)，求解公式： $g=\frac{\partial}{\partial\theta_{j}}J(\theta)=(h_{\theta}(x)-y)x_{j}$
    3. 根据梯度下降公式求下一个 $\theta$ ： $g$ 是负数，则增大 $\theta$ ，否则减小 $\theta$ ；
    4. 重复步骤2和3，直到梯度在阈值以内，如果一直不能到达阈值，说明学习率太大，需要调整超参；
- 批量梯度下降法(BGD：Batch Gradient Descent)：
  - 通过对损失函数求导求得j维度的梯度为: $g(j)=\frac{1}{m} \cdot (x_{j})^{T} \cdot (h_{\theta} \cdot X - y)$
  - 整体的梯度为: $g = \frac{1}{m} \cdot X^{T} \cdot (h_{\theta} \cdot X - y)$
  - 随着迭代次数的不断增多，学习率不变，梯度的绝对值是不断变小的，所以步长也会随着不断变小；
- 部分批量梯度下降法(MBGD：Mini-Batch Gradient Descent)：
- 随机梯度下降法(SGD：Stochastic Gradient Descent)：