The Machine Learning Landscape
Exercises
- 您如何定义机器学习?
- 机器学习是关于构建可以从数据中学习的系统。学习意味着在某些任务中,通过一些绩效衡量,可以更好
- 你能说出四种类型的问题吗?
机器学习非常适用于
- 我们没有算法解决方案的复杂问题
- 替换手工调整规则的长列表
- 构建适应变化环境的系统
- 最后帮助人类学习(例如,数据挖掘)。
- 什么是标记的训练集?
- 标记的训练集是指对于每个实例包含所需解决方案的训练集
- 两个最常见的监督任务是什么?
- 两个最常见的监督任务是回归和分类。
- 你能说出四个常见的无监督任务吗?
- 常见的无监督任务包括聚类,可视化,降维和关联规则学习。
- 您将使用什么类型的机器学习算法来允许机器人走在各种不知名的地形?
- 如果我们想让机器人学习走在各种不为人知的地形,强化学习可能会发挥最佳作用
因为这通常是强化学习解决的问题类型。有可能将问题表达为监督或半监督学习问题,但这种问题不太自然。
- 您将使用何种类型的算法将客户细分为多个群体?
- 如果您不知道如何定义组,则可以使用一种聚类算法(无监督学习),可将您的客户划分为类似客户的集群。
- 但是,如果您知道您希望拥有哪些组,那么您可以将每个组的许多示例提供给分类算法(监督学习),并将所有客户分类到这些组中。
- 您是否将垃圾邮件检测问题定为监督学习问题还是无人监督的学习问题?
- 垃圾邮件检测是一种典型的监督学习问题:算法会输入许多电子邮件及其标签(垃圾邮件或非垃圾邮件)。
- 什么是在线学习系统?
- 在线学习系统可以逐步学习,而不是批量学习系统。 这使它能够快速适应不断变化的数据和自动化系统,以及对大量数据的训练。
- 什么是out-of-core learning?
- Out-of-core algorithms 可以处理大量无法存储在计算机主存中的数据。
- out-of-core algorithms将数据分成小批量,并使用在线学习技术从这些小批量中学习。
- 什么类型的学习算法依赖于相似性度量预测?
- An instance-based learning system 用心学习训练数据; 然后,当给定一个新实例时,它使用相似性度量来查找最相似的学习实例并使用它们进行预测。
- 模型参数和学习算法的超参数之间有什么区别?
- 模型具有一个或多个模型参数,确定给定新实例的预测值(例如,线性模型的斜率)。学习算法试图找到这些参数的最佳值,以便模型很好地推广到新实例。
- 超参数是学习算法本身的参数,而不是模型的参数(例如,要应用的正则化的量)。
- 基于模型的学习算法搜索什么?此类算法获得成功的最常见策略是什么?他们如何做出预测?
- 基于模型的学习算法搜索模型参数的最佳值,从而使得模型可以很好地推广到新实例上。
- 我们通常通过最小化损失函数来训练这样的系统,该成本函数测量系统在对训练数据进行预测时的好坏程度,以及模型正则化时对模型复杂性的惩罚。
- 为了进行预测,我们使用学习算法找到的参数值将新实例的特征提供给模型的预测函数。
- 您能说出机器学习中的四个主要挑战吗?
机器学习的一些主要挑战是:
- 缺乏数据
- 数据质量不佳
- 数据代表性不强,特征的信息价值小
- 简单的模型欠拟合,复杂的模型过拟合 。
- 如果您的模型在训练数据上表现出色,但对新的实例表现不佳,发生了什么?你能说出三种可能的解决方案吗
- 如果一个模型在训练数据上表现很好,但对新的实例表现不佳,该模型可能过拟合训练数据
- 过拟合的可能解决方案是获得更多数据,简化模型(选择更简单的算法,减少所使用的参数或特征的数量,或使模型正规化),或减少训练数据中的噪声。
- 什么是测试集,为什么要使用它?
- 测试集用于模型在生产中启动之前,在新实例上估计泛化误差。
- 验证集的目的是什么?
- 验证集用于比较模型。它可以选择最佳模型并调整超参数。
- 如果使用测试集调整超参数,会出现什么问题?
- 如果使用测试集调整超参数,在测试集存上在过拟合的风险,测量的泛化误差会被乐观估计(您可能启动一个性能比预期差的模型)
- 什么是交叉验证?为什么您更喜欢用它做验证集?
- 交叉验证是一种可以比较模型的技术,用于模型选择和超参数调整,无需单独的验证集。 这节省了宝贵的训练数据。