numpy

核心数据结构 ndarray 多维数组,

TIM截图20200406171028.png

注意 n维的顺序

ndarray的属性

ndarray.ndim
数组的轴（维度）的个数。维度的数量被称为rank。
ndarray.shape
数组的形状。返回一个元组表示各个维度中数组的大小。
ndarray.size
数组中元素的总数。等于shape各个元素的乘积。
ndarray.dtype
一个描述数组中元素类型的对象。
ndarray.itemsize
数组中每个元素的字节大小。
ndarray.real
数组的实部
ndarray.imag
数组的虚部

ndarray的创建方式

data = [[1,2,3], [4,5,6]]
arr1 = np.array(data)
arr2 = np.asarray(arr1) #不占用内存
arr3 = np.zeros([3, 4])
arr4 = np.zeros_like(data)
arr5 = np.ones([2, 3])
arr6 = np.ones_like(data)
arr7 = np.empty([2, 2])
arr8 = np.empty_like(data)
arr9 = np.full([2,3], fill_value=3)
arr10 = np.full_like(data, 8)
arr11 = np.identity(5) # \ 对角线
arr12 = np.eye(5,6) #\ 对角线
arr13 = np.random.randn(2, 3) # 正态分布随机期望值为0，标准差为1
np.random.normal(mu, sigma, 10) # 期望mu，标准差sigma自定义，生成10个数
np.random.binomial(n,p,k) # 一组做n次，成功概率p ，看k次的结果，生成k个数，每个数是n里面几次成功
np.random.beta（a,b,n) #a次成功，b次失败，生产n个数
np.random.randint(2,10,size= (3,4)) # 随机整数
np.random.uniform(1,100,20) #随机float数，20是生产的个数
np.random.rand()
np.random.random(size = (2,2)) #好像和上个类似
np.random.choice(a,3,replace =False) a为1维数组，也可以为整数，等同于 np.arange(5)
np.random.seed() #使随即数据可预测，对于同一个seed，生成的随机数相同
np.random.shuffle(a) @给a随机打乱
arr14 = np.arange(start=0, stop=10, step=2) # [0,10）的数，步长为2
arr15 = np.linspace(0, 10,6) # array([ 0., 2., 4., 6., 8., 10.]) [0,10]分6份
np.fromfunction() 通过对每个坐标执行函数来构造数组
np.fromfunction(lambda i,j:i+j,(2, 3))
array([[0., 1., 2.],
[1., 2., 3.]])
np.fromfile(file, dtype=float, count=-1, sep='') #从文件读取生成 array

ndarray 数据类型

a.astype(np.int32) #转换a的数据类型
自定义数据类型
my_dtype = np.dtype([('name', 'S10'), ('age', int), ('city', 'S10')]) # 按关键字排序my_dtype
temp_arr = [('zhangsan', 20, 'BJ'), ('lisi', 22, 'CD'), ('wangwu', 21, 'SH')]
my_arr = np.array(temp_arr, dtype=my_dtype)

数组运算

arr= np.array([[1,2,3], [4,5,6]])

arr * 2 简单数字运算，针对array内部每个元素
arr + arr / arr * arr / arr - arr / arr / arr +-*/运算
arr2 = arr + 1
arr2 > arr 两array比较，结果是bool
array([[ True, True, True],
[ True, True, True]])
arr1 = np.array([1, 2, 3]) 广播运算
arr2 = np.array([1, 2, 3, 4])
arr1 + arr2 会报错， operands could not be broadcast together with shapes (3,) (4,)

array 拷贝

完全不拷贝
a = np.arange(12)
b = a 实际 b 就是 a
浅拷贝
a = np.arange(12)
c = a.view() 修改c纬度不影响a , 修改数据会影响
完全拷贝
切片或者 a.copy()

切片和索引

切片
切片的基本语法 ndarray[i : j : k]，其中i为起始下标，j为结束下标（不包括j），k为步长（默认为1）
arr = np.arange(10) #1维
arr[9:4:-2] #array([9, 7, 5])
ndarr = np.arange(16).reshape((4, 4)) #2维，中间用逗号隔开
ndarr[:2, :2]#array([[0, 1],
[4, 5]])
索引
arr = np.arange(10)
ndarr = np.arange(16).reshape((4, 4))
ndarr[:3, [0,1]] #
结果：类似切片
array([[0, 1],
[4, 5],
[8, 9]])
布尔索引
cities = np.array(['bj', 'cd', 'sh', 'gz', 'cd'])
data = np.arange(20).reshape(5, 4)
data[cities == 'cd', :1]
结果：array([[ 4],
[16]])
花式索引 —— 指的是利用整数数组进行索引 array[[n],[m]]
arr3 = np.arange(36).reshape(6,6)
arr3[1,1] 取一个元素
arr3[[1, 2, 3], [1, 2, 3]] 取出下标为(1, 1), (2, 2), (3, 3)的元素
arr3[[1, 2, 3]][:, [1, 2, 3]] 同时在行和列上进行花式索引，先选取123行，再选择对应的123 列。

数学和统计方法

amin(a[, axis, out, keepdims]) 返回数组的最小值或沿轴的最小值

amax(a[, axis, out, keepdims])返回数组的最大值或沿轴的最大值

nanmin(a[, axis, out, keepdims])返回数组的最小值或沿轴的最小值，忽略任何NAN

nanmax(a[, axis, out, keepdims])返回数组的最大值或沿轴方向的最大值，忽略任何NAN

median(a[, axis, out, overwrite_input, keepdims])沿指定轴计算中值

average(a[, axis, weights, returned])计算沿指定轴的加权平均

mean(a[, axis, dtype, out, keepdims])沿指定的轴计算算术平均值

std(a[, axis, dtype, out, ddof, keepdims])计算沿指定轴的标准偏差

var(a[, axis, dtype, out, ddof, keepdims])计算沿指定轴的方差

nanmedian(a[, axis, out, overwrite_input, …])在忽略NAS的情况下，沿指定的轴计算中值

nanmean(a[, axis, dtype, out, keepdims])计算沿指定轴的算术平均值，忽略NAN

nanstd(a[, axis, dtype, out, ddof, keepdims])计算指定轴上的标准偏差，而忽略NAN

nanvar(a[, axis, dtype, out, ddof, keepdims])计算指定轴上的方差，同时忽略NAN

数组形状变换

ndarray.reshape(shape, order='C') 函数返回修改后的新对象
ndarray.resize() ndarray.resize 方法修改数组本身
ndarray.flatten() ‘c' 按行扁平，’f' 按列扁平
np.concatenate((a, b), axis=0) 轴向必须同纬度
np.vstack((a, b)) 以追加行的方式对数组进行连接（沿轴0）
np.row_stack((a, b)) 以追加行的方式对数组进行连接（沿轴0）
np.hstack((a, b)) 以追加列的方式对数组进行连接（沿轴1）
np.column_stack((a, b)) 类似于hstack，但是会先将一维数组转换为二维列向量
np.dstack((a, b)) 以面向“深度”的方式对数组进行叠加
np.split(ary, indices_or_sections, axis=0) :把一个数组从左到右按顺序切分

 参数： ary:要切分的数组    indices_or_sections:如果是一个整数，就用该数平均切分，如果是一个数          
组，为沿轴切分的位置（从0到-1全部分完）（左开右闭） axis：沿着哪个维度进行切向，默认为0，横向切分。为1时，纵向切分

np.repeat(arr, [2, 3, 4, 5]) # 0重复2次，1重复3次，2重复4次，3重复5次
np.repeat(ndarr, 2) # 不指定轴会被扁平化
np.repeat(ndarr, 2, axis=0) #横向复制
np.tile(ndarr, (2,3)) # 0轴复制2次，1轴复制3次

通用函数 np.xxx ，不是方法

np.abs(arr1) 绝对值
np.sqrt(arr2) 求平方
np.sign(arr1) 看正负号
np.isnan(arr3) 是否是NAN的布尔值
np.add(arr4, arr5) 加减乘除
np.mod(arr2, 3) # 求模
ceil 计算各元素的ceiling值，即大于等于该值的最小整数
floor 计算各元素的floor值。即小于等于该值的最大整数
rint 将各元素值四舍五入到最接近的整数，保留dtype
modf 将数组的小数和整数部分以两个独立数组的形式返回
cos、cosh、sin、sinh、tan、tanh 普通型和双曲型三角函数
power 对第一个数组中的元素A，根据第二个数组中的相应元素B，计算A的B次方
logical_and、logical_or、logical_xor 执行元素级的真值逻辑运算。相当于中缀运算符&、| 、^

排序

np.sort(arr1) sort函数，返回副本
arr1.sort（） sort方法，改变arr1
np.sort(arr2, axis=0) # 按行排序
np.sort(arr3, order='age')

搜索和计数

np.argmax(arr) # axis默认为None，返回flatten之后的索引
np.argmax(arr, axis=0) 沿0轴最大值，维度与列一样
np.nanargmax(arr2, axis=0) 忽略NAN
np.argwhere(arr > 12) # 返回的是元素的坐标
np.nonzero(arr) # 返回array的元组，两个array组合就是对应的非0索引

 arr = np.arange(6).reshape(2,3)
        array([[0, 1, 2],
               [3, 4, 5]])
 np.nonzero(arr)
(array([0, 0, 1, 1, 1], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))

np.flatnonzero(arr) # 返回array的flatten版索引
np.where(condition, x, y)满足条件(condition)，输出x，不满足输出y。

np.where(arr3 > 3, -3, arr3)# arr3中大于3的都变成-3

np.searchsorted([1,2,3,4,5], [-10, 10, 2, 3]) 插入序列，维持顺序的索引array([0, 5, 1, 2])
extract(condition, arr) 返回满足某些条件的数组元素
count_nonzero(a[, axis]) 计算数组a中的非零值的数量

np.count_nonzero([[0,1,7,0,0],[3,0,0,2,19]], axis=0)  #array([1, 1, 1, 1, 1])

线性代数

diag(v, k=0) #以一维数组的形式返回方阵v的对角线（或非对角线）元素，或将一维数组v转换为方阵（非对角线元素为0）
dot(a, b[, out]) #两个数组的点积
trace(a[, offset, axis1, axis2, dtype, out]) 计算对角线元素的和

广播

广播是指不同形状的数组之间的算术运算的执行方式。受限于某些约束，较小的数组依据较大数组“broadcasting”，使得它们具有兼容的形状。
如果两个数组的后缘维度（即从末尾开始算起的维度）的轴长度相符或其中一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行
自动扩展小纬度的去满足大纬度的来做运算。

numpy

ndarray的属性

ndarray的创建方式

ndarray 数据类型

数组运算

array 拷贝

切片和索引

数学和统计方法

数组形状变换

通用函数 np.xxx ， 不是方法

排序

搜索和计数

线性代数

广播

推荐阅读更多精彩内容

通用函数 np.xxx ，不是方法