关于机器学习你需要知道的几件事:
- 机器学习是人工智能的一个领域。
- 机器学习是一种解决问题的方式。
- 我们首先去定义一个问题,然后构建数据集,然后处理数据,训练模型,最后用这个训练好的模型去做一些预测
机器学习听起来很神秘,他到底有什么样的应用呢?
在诸如预测房价,未来天气等都会用到机器学习。还有我们的手机中也有很多AI产品的应用,比如拍照软件中的人脸识别,翻译软件通过语音输入来翻译成各国语言等。
大概了解到机器学习的背景和应用后,下面我们来通过专业术语和相关概念来了解机器学习。
1 概念
简单来说,机器学习是使用一些训练数据集来训练一个模型,然后用这个模型对新数据做出有用的预测。
这些预测将对我们的产品有利,我们会基于这样的有用预测采取行动。比如,系统会预测用户可能会喜欢这个视频,因此将这个视频推荐给用户。
2 相关术语
2.1 监督学习和无监督学习
通常人们在描述机器学习的时候都会提到2个范式,就是监督学习和无监督学习。
监督学习
从有标记的数据中学习。比如给我们一个树叶的数据集,已知树叶的各种特征,并对每一组数据标记出这样的特征是哪种树叶。然后我们通过对模型的训练可以针对一些新的特征来判断出这个叶子是哪个类别。
无监督学习
无监督学习是从没有标记的数据中寻找有意义的线索。也就是说对于模型来说,他不知道数据是怎么分类的,必须推断出自己的规则。
下图是聚类算法,这个例子是对于给定的数据集,无监督学习算法从中发现了2个集群,但是其实这2个也许并不是你想要的而且也很难说出他们代表了什么。
具体的算法细节我们将在后面详细介绍。这里我们作为入门大概了解就可以了。
2.2 强化学习
强化学习是机器学习的一个分支。不同于前面介绍的监督学习和无监督学习,强化学习是不需要收集数据的,而是基于反馈学习与环境的交互从而达到目标。
可以简单的拿饲养员训练宠物狗的例子来说,饲养员发出指令,狗狗做对了会得到食物奖励,对于宠物狗来说,饲养员就是环境,宠物狗的动作就是对于环境做出的反馈。通过反复的训练,宠物狗知道饲养员希望它做什么,因此能对特定的指令做出相应的动作。
3 机器学习处理的问题类型
根据预测任务的不同,可以将机器学习问题分为这么几类:
问题类型 | 描述 | 例子 |
---|---|---|
分类 | 从N个标签中选一个 | 例如猫,狗,马,熊 |
回归 | 预测数字值 | 房价 |
聚类 | 将相似例子分组 | 最相关的文档(无监督学习) |
关联规则学习 | 推断数据中的关联模式 | 如果你买了做汉堡的圆面包,那你也可能买汉堡(无监督学习) |
结构化输出 | 创建复杂的输出 | 语法分析、图像识别 |
排序 | 确定规模或状态上的位置 | 搜索结果排序 |
下面我们来看3个示例,从这些示例中我们需要观察问题,并且思考对比不同的问题需要如何解决。
3.1 智能回复
问题描述:针对电子邮件,推荐简短的自动回复文本。
简介:智能回复是机器学习的一个使用例子,运用了自然语言理解和自然语言生成,序列对序列学习,对于一个堆积满满的收件箱,它能减轻你的痛苦。
解决了什么问题:用户回复邮件需要的时间太长了。
需要的数据类型:会话数据,邮件内容和回复。
3.2 YouTube接下来观看的视频
简介:运用机器学习来说呢构成一个播放列表,这个列表是根据用户已经观看过的视频给出的建议。这是一个运用深度神经网络来生成和排序潜在视频的强大的推荐网络。
解决了什么问题:YouTube上的视频太多,用户很难找到一个自己想看的。
需要的数据类型:观看时长,点击-通过率,观看历史,搜索历史。
3.3 挑选黄瓜
简介:农民伯伯通过黄瓜的大小、颜色、形状或者其他特点来挑选黄瓜。
解决了什么问题:黄瓜的挑选过程是一项很繁重的工作。
需要的数据类型:黄瓜的特征数据:大小、形状、重量等。
小测一下
到这里我们就对机器学习有了大致的印象,思考一下你都了解没?
哪一个是无监督学习的例子?
A 结构化输出
B 聚类
C 回归
D 分类
你可以在本篇文章中找到问题答案,也可以在下篇文章的开头揭晓。