本文是笔者学习网课Python数据分析与展示的笔记
数据的维度
维度本质上是数据的组织形式.
一维数据:
由对等关系的有序或者无需数据组成,组织为线性方式.
列表/数组/集合 等
- 列表中,元素的数据类型可以不同
- 数组中,元素的数据类型应该相同
二维数据:
表格是典型的二维数据
二维数据由多个一维数据组成,是由一维数据组合而形成
多维数据:
多维数据有一维数据或者二维数据在新维度上扩展而形成
高维数据
高维数据利用二元关系(键值对)展示数据间的复杂结构
Numpy库
- ndarray,一个强大的N维数据对象
- 广播功能函数
- 整合了C/C++/Fortran
- 线性代数\傅里叶变换\随机数生成
import numpy as np
ndarray
数组对象去掉了元素减运算所需的循环,使一维向量更像单个数据.
专门的数组对象有专门的优化(底层运用了一些C),相对运算较快
处理相同数据类型
axis:数据的维度
rank:轴的数量
A=np.array()#generating
A.ndim#return rank
A.shape
A.size #元素的个数
A.itemsize 元素的字节
numpy的精确定义利于程序员取估算空间和时间
ndarray的创建和变换
创建
- 列表和元组创建
x = np.array(list/tuple[,dtype=np.float32])
- 用Numpy中的arange,ones,zeros等函数创建
np.arrange(n)#返回ndarray美型的0~n-1
np.ones(shape)#生成全1数组
np.zeros(shape#生成全0数组
np.full(shape,val)#生成一个每个元素都是val的数组
np.eye(n)创建一个正方的n*n单位矩阵
#生成和a形状相同的数组
np.ones_like(a)
np.zeros_like(a)
np.full_like(a,val)
np.linspace(n,m,step,endpoint=True)
#等分空间,选取端点
np.concatenate((a,b))
#把a b两个列合并和返回
- 字节流中创建
- 从文件中读取特定格式创建
变换
.reshape(shape)不改变数组元素,返回一个shape形数组,原数组不变
.resize(shape)返回一个shape型数组并且把原数组覆盖
.swapaxis(ax1,ax2)将数据n个维度中两个维度进行调换
.flatten()对数据进行降维,返回折叠后的一维数组,原数组不变
.astype(newtype)
ndarray的索引和切片
一维数组:
a[2]
a[n:m:k]#begin,end(except),step
多维数组:
a[a0,a1,...]#由大块向小块索引
#切片
a[:,1,-3]#切取了一个维度
a[:,1:3,:]#切片方法和一维相同
a[:,:,::2]
ndarray的运算
#注意到这里的函数都不会覆盖原值而是生成新数组
a = a / 3#标量乘除法
#对数组操作:
np.abs(x) np.fabs(x)
np.sqrt(x)
np.square(x)
np.log(x) np.log10(x) np.log2(x)
np.ceil(x) np.floor(x)
np.rint(x)#四舍五入
np.modf(x)#分别返回小数和整数
np.exp(x)
np.sign(x)
#三角函数
np.cos(x) np.cosh(x)
...
#二元函数
#+ - * / **
np.maximum(x,y) np.minimum(x,y)
np.mod(x,y)
np.copysign(x,y)
#> < >= <= == != 生成bool型数组
csv文件存储
np.savetext(fname,arrat,fmt='%.18e\,delemeter=None)
#fname 文件\字符串\产生器,也可以是gz压缩或者bz2压缩
#array 存入文件的数组
#fmt 写入文件的格式 %d
#delimiter:分割字符串,默认是空格
np.loadtext(fname,dtype=np.float,delimiter = None,unpack=False)
#unpack主要是用在是否读取数据到不同变量
多维数据读写
a.tofile(fname,sep='',format='%s')
#fname:文件字符串
#format:写入数据的格式
#sep:数据分割串
np.fromfile(fname,dtype=float,count=-1,sep='')
#fname: 文件,字符串
#dtype: 读取的数据类型
#count: 读取的元素个数,-1表示全文读取
#便捷存取,用于数据缓存
bp.save(fname,array)#文件名.npy
np.savez(fname,array)#文件名.npyz
np.load(fname,array)#文件名.npy
随机数函数
random子库用来对数组进行随机操作
(1)
rand(d0,d1,...,dn)#根据d0-dn创建随机数数组,浮点数[0,1),均匀分布
randn(d0,d1,...,dn)#根据d0-dn创建随机数数组,浮点数[0,1),Standard Normal Distribution
randint(low[,high,shape])#根据shape创建随机整数或者数组[low,high)
seed(s)#随机数种子
(2)
shuffle(a)#对数组a的第0轴进行随机排列并且改变数组,但是不切片
permutation(a)#对数组a的第0轴进行随机排列但不改变数组,但是不切片
choice(a,[,size,replace,p])#从一维数组a中以概率p抽取元素,形成size形状的新数组,replace表示元素能否复用,default=False
(3)
uniform(low,high,size)#generate an array obeys uniform distribution
normal(loc,scale,size)#generate an array obeys normal distribution
poisson(lam,size)#generate an array obeys poisson distribution
统计函数
这些函数都在np库下
sum(a,axis=None)
mean(a,axis=None)
average(a,axis=None,weights=None)#加权平均
std(a,axis=None)#标准差
var(a,axis=None)#方差
max(a)
min(a)
argmax(a)#得到其坐标
argmin(a)
np.unravel_index(np.argmax(b),b.shape)
#按照b的shape把其扩充为多维度下标
梯度函数
np.grandient(f)
#计算数组f中元素的梯度
#在这里常用(后一个元素-前一个元素)/2
#边界只好用一个邻近值和值自身
#如果有二维的则会分别生成第一维度梯度和第二维度梯度