GridSearchCV 简介 GridSearchCV,自动调参,设置好相应参数,就能给出最优化的结果和参数。 数据量比较大的时候可以使用一个...
在处理缺失数据的时候,最常用的方法是: 删除 ,最简单最直接的方法,很多时候也是最有效的方法,这种做法的缺点是可能会导致信息丢失。删除有缺失数据...
机器学习中的特征类别有连续型特征和离散型特征 获取到原始特征,根据情况需要需对特征分别进行归一化,比如,特征A的取值范围是[-1000,1000...
scikit_learn里的 pipeline pipeline 实现了对全部步骤的流式化封装和管理,可以很方便地使参数集在新数据集上被重复使用...
数据标准化(Standardization)与 归一化(Normalization) 在机器学习领域中,不同评价指标(即特征向量中的不同特征就是...
欠拟合与过拟合 欠拟合 Underfit 在训练数据和未知数据上表现都很差,高偏差。 解决方法: 1)添加其他特征项,有时候我们模型出现欠拟合的...
scikit_learn里的fit与fit_transform 二者的功能都是对数据进行某种统一处理(比如标准化~N(0,1),将数据缩放(映射...
机器学习度量指标 分类评估指标 TN TP FN FP TP:预测为正向(P),实际上预测正确(T),即判断为正向的正确率TN:预测为负向(N)...
无监督学习 发现数据本身的分布特点 数据聚类K-means 预先设定聚类个数,再不断更新聚类中心,多轮迭代后,使得所有数据点到其所属聚类中心距离...
文集作者