第十三章 Python建模库介绍
13.1 pandas与建模代码的结合
使用pandas用于数据载入和数据清洗,之后切换到模型库去建立模型是一个常见的模型开发工作流。
在机器学习中,特征工程是模型开发的重要部分之一。特征工程是指从原生数据集中提取可用于模型上下文的有效信息的数据转换过程或分析,书中会展示一些可以在利用pandas进行数据操作和建模之间无痛切换的方法。
1.panas和其他分析库的结合点通常是NumPy数组。
要将DataFrame转换为NumPy数组,使用.values属性(见图13-1)
2.values属性一般在你的数据是同构化的时候使用——例如,都是数字类型的时候。如果你的数据是异构化的,结果将是Python对象的ndarray。(见图13-2)
3.使用loc索引和values,选取一部分列(见图13-3)
注:有些库对pandas有本地化支持,可以自动为你做以下工作:将数据从DataFrame转换到NumPy中并将模型参数名称附于输出表的列或Series上。在其他情况下,你将不得不手动去处理这些“元数据管理”的操作。
4.pandas的Categorical类型和pandas.get_dummies函数。
假设在我们的示例数据集中,我们有一个非数字类型的列(见图13-4)
注:在使用虚拟变量拟合特定的统计模型时是有一些细微区别的。当你拥有不止简单的数字类型列时,使用Patsy(下一节的内容)可以更简单、更少出错。