【numpy笔记_1】初识numpy

numpy和pandas是非常强大的科学计算和数据分析工具,在算法方面也有着广泛应用。

未来笔者会通过两个系列介绍numpy和pandas的基本使用,内容但求细致,算是对过往所学的总结。本篇将从numpy开始,认识下这个十分强大的科学计算模块。

安装numpy

windows:pip install numpy
其他系统,百度一下

什么是numpy?

如刚才所说,numpy是一个科学计算模块,numpy对象(称为array对象)中每个元素的数据类型都相同。使用numpy的计算十分高效,我们来看两个例子:

【例1】

定义一个包含一千万个数字的list,每个数字都加1。使用For循环和使用numpy 进行计算,来对比耗费的时间:


li = [i for i in range(10000000)]
ali = numpy.array(li)

st1 = time.time()
for index, item in enumerate(li): # enumereate()枚举方法
    li[index] = item + 1
st2 = time.time()
ali = ali + 1   # 直接对每个元素 +1
st3 = time.time()

print(f'For循环:加一后的首个元素:{li[0]},末尾元素:{li[-1]},数组长度:{len(li)},耗时:{st2-st1}秒。')
print(f'numpy:加一后的首个元素:{ali[0]},末尾元素:{ali[-1]},数组长度:{len(ali)},耗时:{st3-st2}秒。')
# 运行结果:
For循环:加一后的首个元素:1,末尾元素:10000000,数组长度:10000000,耗时:1.5949997901916504秒。
numpy:加一后的首个元素:1,末尾元素:10000000,数组长度:10000000,耗时:0.019999980926513672秒。

【例2】

对上个例子中的list进行求和操作:


li = [i for i in range(10000000)]
ali = numpy.array(li)

st1 = time.time()
res1 = sum(li)
st2 = time.time()
res2 = ali.sum(dtype=numpy.int64)   # 由于数组过大,需要指定array对象的数据类型,否则求和值超出元素的数据类型时会导致计算结果出错。
st3 = time.time()

print(f'普通求和结果:{res1},耗时:{st2-st1}秒。')
print(f'numpy求和结果:{res2},耗时:{st3-st2}秒。')
# 运行结果:
普通求和结果:49999995000000,耗时:0.24000000953674316秒。
numpy求和结果:49999995000000,耗时:0.00800013542175293秒。

可以看到,numpy处理数组的效率整体比普通的python运算快了近百倍。

但numpy的价值远不止于此。array对象基于固定的数字类型计算,其本质是由一个或多个数组组成的数字矩阵,既然是矩阵,说明array对象可以是一组或多组的数,这就是维度的概念。

创建一个numpy对象

我们通过numpy.array(object)方法创建一个array数组对象:


array_1d = numpy.array([1,3,5,7])   # array()方法创建
array_2d = numpy.array([[1,3,5,7],[2,4,6,8]])
array_3d = numpy.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
# 一维(1darray):shape = (4列)
[1 3 5 7]
# 二维(2darray):shape = (2行,4列)
    [[1 3 5 7]
    [2 4 6 8]]
# 三维(3darray):shape = (2维,2行,3列)
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]

原则上,array对象的元素应是数字,但numpy同样支持创建str。
创建前python会检验元素类型,再给出能够包含所有元素的数据格式。
来看一个例子:

import numpy as np
li_1 = [1, 3]
li_2 = [1, True]   # bool同时对应int类型的1, 0
li_3 = [False, True]
li_4 = [1, 3.279]
li_5 = [1, 'hello']

list_pool = [li_1, li_2, li_3, li_4, li_5]
for i in list_pool:
    ali = np.array(i)
    print(f'数据内容:{ali},类型:{ali.dtype}')
# 运行结果:
数据内容:[1 3] ,类型:int32
数据内容:[1 1] ,类型:int32
数据内容:[False  True],类型:bool
数据内容:[1.    3.279],类型:float64
数据内容:['1' 'hello'],类型:<U11

查看array对象的一些基本属性:

array_2d = numpy.array([[1,3,5,7],[2,4,6,8]])
print(array_2d)
print(f'array_2d对象的shape:{array_2d.shape}')
print(f'array_2d对象的dtype类型:{array_2d.dtype}')
print(f'array_2d对象的维度数:{array_2d.ndim}')
# 运行结果:
[[1 3 5 7]
 [2 4 6 8]]
array_2d对象的shape:(2, 4)
array_2d对象的dtype类型:int32
array_2d对象的维度数:2

创建随机、全零、全1数组:

empty_array = numpy.empty((3,2), dtype=numpy.int32)  # 创建并非空值,而是指定数据类型的随机数字
zeros_array = numpy.zeros((3,2), dtype=numpy.int32)
ones_array = numpy.ones((3,2), dtype=numpy.int32)
print(empty_array)
print('*'*20)
print(zeros_array)
print('*'*20)
print(ones_array)
# 运算结果:
[[-1201405844        2046]
 [-1201393040        2046]
 [    5439567          69]]
********************
[[0 0]
 [0 0]
 [0 0]]
********************
[[1 1]
 [1 1]
 [1 1]]

知识补充:

上面【例2】中提到的dtype类型不对,数据运算时可能引发计算结果出错,是由于定义一个array对象时如果不指定数据类型,会根据元素值的大小(字节数)自动默认一种数据类型, 且求和的值遵守该数据类型。
如果某个array数组中存在的值相当多,和值的上限超出该数据类型的上限时,计算结果往往会出错。


ali1 = numpy.array([1,3,5,7])
ali2 = numpy.array([i for i in range(10000000)])
ali3 = numpy.array([0.3,1.00,0.0079])
print(f'ali1数据类型:{ali1.dtype}\nali2数据类型:{ali2.dtype}\nali3数据类型:{ali3.dtype}')
print(f'ali2未指定数据类型,直接求和的结果为:{ali2.sum()},和的数据类型:{type(ali2.sum())}')
# 运算结果:
ali1数据类型:int32
ali2数据类型:int32
ali3数据类型:float64
ali2未指定数据类型,直接求和的结果为:-2014260032,和的数据类型:<class 'numpy.int32'>

解决办法就是定义对象或进行求和操作时,定义一个更为合适的数字类型。


# 定义对象时指定数据类型
ali2 = numpy.array([i for i in range(1000000)], dtype=numpy.int64)
# 或,求和时制定数据类型
ali3 = numpy.array([i for i in range(1000000)])
res3 = ali3.sum(dtype=numpy.int64)

print(f'ali2求和的结果为:{ali2.sum()},和的数据类型:{ali2.sum().dtype}')
print(f'ali3求和的结果为:{res3},和的数据类型:{res3.dtype}')
# 运行结果:
ali2求和的结果为:499999500000,和的数据类型:int64
ali3求和的结果为:499999500000,和的数据类型:int64

对numpy的认识到这里就差不多了,未来会进一步学习numpy的常用操作。

附:numpy数据类型:

numpy数据类型.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容