根据数据集的不同,可以把机器学习算法分为:
监督学习、无监督学习、半监督学习和强化学习
监督学习
输入数据由输入特征值和目标值组成。
- 目标值连续为回归。
- 目标值离散为分类。
回归问题
预测房价与平米数的关系,根据样本集拟合出一条连续曲线
分类问题
根据年龄和肿瘤的大小来判断肿瘤是良性还是恶性,得到的结果是离散的
无监督学习
输入数据是由输入特征值组成,没有目标值(用于分类)
- 输入数据没有被标记,也没有确定的结果,样本数据类别未知
- 需要根据样本间的相似性对样本集进行类别划分
监督学习训练方式
从获取大量没有标记过的数据,让专家进行预测得到大量标记过的数据,通过标记过的数据预测和训练模型,得到监督学习的训练模型
半监督学习
训练集包含有标记样本数据和未标记样本数据(训练集同时包含有目标值数据和无目标值数据)。
半监督学习训练方式
从获取大量没有标记过的数据,取少部分数据让专家进行标记,这些少量的数据训练出初步的模型,初步的模型用少量没标记过的数据和大量没标记过的数据进行训练,得到半监督学习的模型。
强化学习
强化学习实质是决策问题,即自动进行决策,并且可以连续决策
小孩想要走路,但在这之前要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩是代理体。他要试图通过采取行动(行走)来模拟环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当它完成任务的子任务(走了几步)时,就会得到奖励(给巧克力吃),并且当他不走路时,就不给巧克力。
强化学习的五个元素:代理体、行动、环境、奖励和观察情况。
强化学习的目标:获取更多的累计奖励。
监督学习和强化学习的对比
监督学习 | 强化学习 | |
---|---|---|
反馈映射 | 告诉算法什么样的输入对应什么样的输出 | 输出对应反馈的过程,用来判断行为的好坏 |
反馈时间 | 立即给出 | 有一定延迟 |
输入特征 | 独立同分布 | 输入总是在变化,每当算法做成一个行为,它影响下一次决策的输入 |
独立同分布:输入空间的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布采样而得。
独立:每次抽样之间没有关系互不影响。
【投色子,每次投到几就是几,这是独立。色子投两次要和大于5,那么第一次和第二次投掷相关,不独立】
同分布:每次抽样,样本都服从同一分布。
【投色子,每次投得到任意点数的概率都是六分之一,这个就是同分布】
机器学习初期为了让模型训练起来比较简单,要求测试集和训练集满足独立同分布。目前为了训练出来的模型的可扩展性更加强健,训练时没有强制要求训练集和测试集必须服从独立同分布。
输入 | 输出 | 目的 | 案例 | |
---|---|---|---|---|
监督学习 | 有标签 | 有反馈 | 预测结果 | 房价预测、猫狗分类 |
无监督学习 | 无标签 | 无反馈 | 发现潜在结构 | |
半监督学习 | 部分有标签部分无标签 | 有反馈 | 降低数据标记难度 | |
强化学习 | 决策流程及激励系统 | 一系列行动 | 长期利益最大化 | 学下棋的过程 |