第五节 Pandas高级数据结构
一、 Pandas介绍与安装
1.1 为什么会有Pandas?
Pandas支持大部分Numpy语言风格,尤其是数组函数与广播机制的各种数据处理。但是Numpy更适合处理同质型的数据。而Pandas的设计就是用来处理表格型或异质型数据的,高效的清洗、处理数据。
1.2 Pandas是什么?
Pandas是基于Numpy的一种工具,提供了高性能矩阵的运算,该工具是为了解决数据分析任务而创建的。也是贯穿整个Python数据分析非常核心的工具。
1.3 Pandas涉及内容
1.4 Pandas安装
直接在dos命令行中pip install pandas 即可。
二、 Pandas数据结构介绍
2.1 Series
2.1.1 Series介绍
Series是一种一维的数组型对象,它包含了一个值序列(values),并且包含了数据标签,称为索引(index)。
2.1.2 Series创建
- pd.Series(data=None,index=None,dtype=None,name=None,copy=False)
data:创建数组的数据,可为array-like, dict, or scalar value
index:指定索引
dtype:数组数据类型
name:数组名称
copy:是否拷贝
2.1.3 创建方式
-
通过列表创建 s = pd.Series([1,2,3])
-
通过元组创建 s1 = pd.Series((1,2,3))
-
通过数组创建
-
通过字典创建
2.1.4 Series简单使用
- series的索引与值
-
s.index 查看索引
-
s.values 查看值序列
- s.reset_index(drop=False) 重置索引
drop # 是否删除原索引 默认为否
注意:索引对象是不可变的,所以不能单个修改索引
-
切片:下标切片是左闭右开,标签切片是包含右边的标签值
Series索引与切片
s['标签'] # 通过标签
s['索引'] # 通过索引
s.loc(标签) # 通过标签
s.iloc(索引) # 通过索引Series简单函数
s3.isnull() # 检查缺失值
s.head(n) # 预览数据前5条
s.dtype # 查看数据类型
s.astype() # 修改数据类型
s.tail(n) # 预览数据后5条
2.2 DataFrame 表格型数据结构
2.2.1 DataFrame介绍
DataFrame表示的是矩阵的数据表,它包含已排序的列集合,每一列可以是不同的值类型(数值,字符串,布尔值)。在DataFrame中,数据被存储为一个以上的二维块。
2.2.2 DataFrame创建
pd.DataFrame(data=None,index=None,columns=None,dtype=None,copy=False)
data:创建数组的数据,可为ndarray, dict
index:指定索引
dtype:数组数据类型
copy:是否拷贝
2.2.3 创建方式一: 字典类
-
数组,列表,或者元组构成的字典构造dataframe
index属性:行索引,列索引
可以指定行索引和列索引
-
series组成字典构造dataframe
-
字典组成字典构造dataframe
2.2.4 创建方式二: 列表类
-
二维数组构造dataframe
-
字典构造列表构造dataframe
-
series组成的列表构造dataframe
2.2.5 补充创建描述
2.2.6 基本操作
-
索引查询
-
通过索引改行列、增行列数据
-
删除行列
一般使用drop删除行列,axis=0指定所在的行列,inplace是否有返回值,默认在原数据修改