支撑向量机,SVM(Support VectorMachine),其实就是一个线性分类器。在最初接到这个算法时,我们可能会一头雾水:这个名词好奇...
1、什么是主成分分析法 PCA(PrincipalComponent Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监...
2.1 学习的目标和本质 假设给定训练数据集,其中为输入实例(特征向量),n为特征个数,,,为类标记(label),,,,,N为样本容量 学习目...
1、偏差和方差 在机器学习中,过拟合和欠拟合都会使训练好的机器学习模型在真实的数据中出现错误。我们可以将错误分为偏差(Bias)和方差(Vari...
逻辑回归(Logistic Regression,LR)。在Kaggle竞赛的统计中,LR算法以63.5%的出产率,荣获各领域中“出场率最高的算...
我们所谓的建模过程,其实就是找到一个模型,最大程度的拟合我们的数据。在简单线回归问题中,模型就是我们的直线方程:y = ax + b 。 要想最...
机器学习就是需找一种函数f(x)并进行优化, 且这种函数能够做预测、分类、生成等工作。 那么其实可以总结出关于“如何找到函数f(x)”的方法论。...
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工...
数值型特征分箱(数据离散化) 2.1 无监督分箱法 等距分箱 import pandas as pddf = pd.DataFrame([[22...