简介
Numpy:提供了一个在Python中做科学计算的基础库,重在数值计算,主要用于多维数组(矩阵)处理的库。
用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。
本身是由C语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是以此为基础。
高性能科学计算和数据分析的基础包
ndarray,多维数组(矩阵),具有矢量运算能力,快速、节省空间
矩阵运算,无需循环,可完成类似Matlab中的矢量运算
线性代数、随机数生成
#导入
import numpy as np
数组创建
NumPy数组是一个多维的数组对象(矩阵),称为ndarray,具有矢量算术运算能力,并具有执行速度快和节省空间的特点。
注意:ndarray的下标从0开始,且数组里的所有元素必须是相同类型
ndarray属性
- ndim属性:维度个数
- shape属性:维度大小
- dtype属性:数据类型
ndarray的随机创建
通过随机抽样(numpy.random)生成随机数据
np.random.rand()
随机样本位于[0,1)中,rand固定取件0.0~1.0
np.random.randn()
随机样本是从标准正态分布中返回一个或多个样本值
np.random.randint()
生成指定维度大小(3行4列)的随机多维整型数据(二维),randint()可以指定区间(-1, 5)
np.random.uniform()
生成指定维度大小(3行4列)的随机多维浮点型数据(二维),uniform()可以指定区间(-1, 5)
ndarray的序列创建
np.array(collection)
collection为序列型对象(list)、嵌套序列对象(list of list)
#list序列转换为ndarray
list = range(10)
arr = np.array(list)
print(arr)#ndarray数据
print(type(arr))
np.zeros()指定大小的全0数组。注意第一个参数是数组,用来指定大小,如(3,4)
zeros_arr = np.zeros((3,4))
np.ones()
指定大小全是1的数组,注意:第一个参数是远足,用来指定大小,如(3,4)
np.ones()
np.empty()
初始化数组,不是总是返回全0,有时返回的是未初始化的随机值(内存里的随机值)
#np.empty
empty_arr = np.empty((3,3))
#np.empty 指定数据类型
empty_int_arr = np.empty((3,3),int)
np.arange()和reshape()
arange()类似python的range(),创建一个一维ndarray数组
reshape将重新调整数组的维数
# np.arange()
arr = np.arange(15) # 15个元素的 一维数组
print(arr)
print(arr.reshape(3, 5)) # 3x5个元素的 二维数组
print(arr.reshape(1, 3, 5)) # 1x3x5个元素的 三维数组
ndarray数据类型
dtype参数
指定数组的数据类型,类型名+位数,如float64,int32
#初始化3行4列数组,数据类型为float64
zeros_float_arr = np.zeros((3,4),dtype=np.float64)
print(zeros_float_arr)
astype方法
#astype转换数据类型,将已有的数组的数据类型转换为int32
zeros_int_arr = zeros_float_arr.astype(np.int32)
print(zeros_int_arr)
print(zeros_int_arr.dtype)
ndarray的矩阵运算
数组是编程中的概念,矩阵、矢量是数学概念。
在计算机编程中,矩阵可以用数组形式定义,矢量可以用结构定义!
1.矢量运算:相同大小的数组间运算应用在元素上
#矢量与矢量运算
arr = np.array([[1,2,3],[4,5,6]])
print("元素相乘:")
print(arr*arr)
print("矩阵相加:")
print(arr + arr)
2.矢量和标量运算:"广播"-将标量"广播"到各个元素
#矢量与标量运算
arr = np.array([[1,2,3],[4,5,6]])
print(1./arr)
print(2.*arr)
ndarray的索引与切片
1.一维数组的索引与切片-与python的列表索引功能相似
#一维数组
arr1 = np.arange(10)
print(arr1)
print(arr1[2:5])
2.多维数组的索引与切片
arr2 = np.random.randint(1,5,size(3,5))
print(arr2)
print(arr2[2:3])
3.条件索引
布尔值多维数组:arr[condition],condition也可以是多个条件组合。
注意,多个条件组合要使用 & | 连接,而不是Python的 and or。
# 条件索引 找出 data_arr 中 2005年后的数据
data_arr = np.random.rand(3,3)
print(data_arr)
year_arr = np.array([[2000, 2001, 2000], [2005, 2002, 2009], [2001, 2003, 2010]])
is_year_after_2005 = year_arr >= 2005
print(is_year_after_2005, is_year_after_2005.dtype)
filtered_arr = data_arr[is_year_after_2005]
print(filtered_arr)
# 多个条件
filtered_arr = data_arr[(year_arr <= 2005) & (year_arr % 2 == 0)]
print(filtered_arr)
ndarray的转置
二维数组直接使用转换函数:transpose()
高维数组转换要指定维度编号参数 (0, 1, 2, …),注意参数是元组
arr = np.random.rand(2,3) # 2x3 数组
print(arr)
print(arr.transpose()) # 转换为 3x2 数组
arr3d = np.random.rand(2,3,4) # 2x3x4 数组,2对应0,3对应1,4对应2
print(arr3d)
print(arr3d.transpose((1,0,2))) # 根据维度编号,转为为 3x2x4 数组
元素计算函数
- ceil(): 向上最接近的整数,参数是 number 或 array
- floor(): 向下最接近的整数,参数是 number 或 array
- rint(): 四舍五入,参数是 number 或 array
- isnan(): 判断元素是否为 NaN(Not a Number),参数是 number 或 array
- multiply(): 元素相乘,参数是 number 或 array
- divide(): 元素相除,参数是 number 或 array
- abs():元素的绝对值,参数是 number 或 array
- where(condition, x, y): 三元运算符,x if condition else y
# randn() 返回具有标准正态分布的序列。
arr = np.random.randn(2,3)
print(arr)
print(np.ceil(arr))
print(np.floor(arr))
print(np.rint(arr))
print(np.isnan(arr))
print(np.multiply(arr, arr))
print(np.divide(arr, arr))
print(np.where(arr > 0, 1, -1))
元素统计函数
- np.mean(), np.sum():所有元素的平均值,所有元素的和,参数是 number 或 array
- np.max(), np.min():所有元素的最大值,所有元素的最小值,参数是 number 或 array
- np.std(), np.var():所有元素的标准差,所有元素的方差,参数是 number 或 array
- np.argmax(), np.argmin():最大值的下标索引值,最小值的下标索引值,参数是 number 或 array
- np.cumsum(), np.cumprod():返回一个一维数组,每个元素都是之前所有元素的 累加和 和 累乘积,参数是 number 或 array
- 多维数组默认统计全部维度,axis参数可以按指定轴心统计,值为0则按列统计,值为1则按行统计。
arr = np.arange(12).reshape(3,4)
print(arr)
print(np.sum(arr)) # 所有元素的和
print(np.sum(arr, axis=0)) # 数组的按列统计和
print(np.sum(arr, axis=1)) # 数组的按行统计和
print(np.cumsum(arr)) # 返回一个一维数组,每个元素都是之前所有元素的 累加和
arr = np.random.randint(0,10,(3,4))
print(arr)
#所有元素的平均值与和
print(np.mean(arr))
print(np.sum(arr))
#求数组的最大值
print(np.max(arr))
print(np.min(arr))
#方差和标准差:衡量数据和期望值之间的偏离值
#求方差:所有元素都和平均数的差的平方的平均数
print(np.var(arr))
#求标准差:方差的平方根
print(np.std(arr))
#求最大值和最小值的索引下标
#如果是多维数组,将多维数组合并成一维数组,再找出最大值索引下标
arr = np.arange(10)
print(arr)
print(np.argmax(arr))
print(np.argmin(arr))
#返回一维数组,数组每个元素都是之前每个元素的累加和
print(np.cumsum(arr))
#返回一个一维数组,数组的每一个元素都是之前所有元素的累加积
print(np.cumprod(arr))