第三章 基本素质——必备的基础知识
1、对基础知识的学习目标
了解基本的实现模式
了解常用的评价指标
了解建模的过程即模型建立的过程
2、部分基本认知
1)建模过程:
应了解样本数据对模型的重要性,样本数据构建的特征不同,对于模型的准确度是有较大影响的。
一个模型的建立过程,从业务系统开始,经历数据抽取、数据预处理后,通过模型训练+模型评价进而形成模型进行模型输出,同时输出的模型会进行进一步的、持续的模型优化。而在整个过程中,原始数据含两部分,一部分是历史数据,一部分是实时数据,数据预处理即数据分析包含数据清洗、缺失值处理、数据变换等基本数据处理工作,形成部分样本数据用于模型训练和模型评价,进而形成模型。所以,样本数据对于模型的准确度有着非常重要的作用。
2)模型训练:模型训练分为有监督学习、无监督学习和半监督学习。
有监督学习
使用已知答案的示例训练模型
无监督学习
训练数据只包含输入,不提供任何输出标签
半监督学习
训练数据只包含输入数据,提供部分输出数据
3)归一化处理
建立模型的过程中,要对多个变量进行归一化处理。
将样本数据的最大值设为1,最小值设为0
4)模型运用到生产环境时,可能发现效果无法像离线数据或训练数据的效果好,为什么?可能出现3个问题:模型过拟合、模型欠拟合、模型的泛化能力较差。
5)经典的学习任务包括:分类、回归、聚类、推荐、排序