在学习机器学习与深度学习之前、和AI相关的技术伙伴交流时,我们必须能听懂或看懂相关的名词:
样本
样本是指一条数据。为深度学习训练模型用的,可以是已标注的也可以是未标注的数据,来源可以是线上的也可以是线下的。
特征
特征是指:被观测对象中可测量特性,例如西瓜的颜色、瓜蒂、纹路、敲击声等;
特征向量
用一个 d 维向量表征一个样本的所有或部分特征;
标签(label)/真实值
样本特征对应的真实类型或者真实取值,即正确答案;
数据集(dataset)
多条样本组成的集合,是样本的集合。一般用于机器学习的数据集会分为:训练集、评估集、测试型。
训练集(train)
已指定用于模型训练的数据集;
评估集(eval)
用于在训练过程中周期性评估模型效果的数据集合;
测试集(test)
用于在训练完成后评估最终模型效果的数据集合;
模型
可以从数据中学习到的,可以实现特定功能/映射的函数;
误差/损失
样本真实值与预测值之间的误差;
预测值
样本输入模型后输出的结果;
模型训练
使用训练数据集对模型参数进行迭代更新的过程;
模型收敛
任意输入样本对应的预测结果与真实标签之间的误差稳定;
模型评估
使用测试数据和评估指标对训练完成的模型的效果进行评估的过程;
模型推理/预测
使用训练好的模型对数据进行预测的过程;
模型部署
使用服务加载训练好的模型,对外提供推理服务;