Data Analysis with Pandas

numpy

numpy使矩阵的数据处理变得简单

numpy处理数据读入

  • 使用numpy读入数据
    import numpy
    nfl = numpy.genfromtxt("nfl.csv", delimiter=",")
    得到的nfl的数据类型为numpy.ndarray

  • 使用numpy创建数组
    使用numpy.array()可以将列表转换为数组。如果输入一个列表可以将返回一个数组,如果输入一个列表的列表,可以得到一个二维数组

  • 获取数组的大小
    matrix.shape会返回一个元组(a,b)代表这个矩阵的秩
    如果是一个一维数组那么返回一个只有一个元素的元组

  • 获取numpy array的数据类型
    array.dtype的属性值为array的数据类型

  • 按照特定类型读取数据
    array只能含有一种数据类型,numpy.genfromtxt会预估数据类型,然后按照该类型将所有数据读取进来。如果有数据无法被转换为array的类型,这些数据会丢失
    我们可以指定genfromtxt读取数据的类型,通过指定dtype的值。
    import numpy
    world_alcohol=numpy.genfromtxt("world_alcohol.csv",dtype="U75",skip_header=1,delimiter=",")
    print(world_alcohol)

  • 分割数组

    • 仅分割一个维度
      matrix = numpy.array([
      [5, 10, 15],
      [20, 25, 30],
      [35, 40, 45]
      ])
      print(matrix[:,0:2])
      :分号匹配所有的行或列,此处选取了matrix数组中所有行中列的index为0和1的部分
      即输出为
      [
      [5, 10],
      [20, 25],
      [35, 40]
      ]
      第二个例子:
  •      matrix = numpy.array([
                 [5, 10, 15], 
                 [20, 25, 30],
                 [35, 40, 45]
              ])
         print(matrix[:,1])
    

会输出所有行中的第2列元素

  • 分割两个维度时
    matrix = numpy.array([
    [5, 10, 15],
    [20, 25, 30],
    [35, 40, 45]
    ])
    print(matrix[1:3,0:2])
    会选取matrix中第2行和第3行的第1列和第2列

Computation with NumPy

  • numpy.array的比较
    #==比较运算符
    matrix = numpy.array([
    [5, 10, 15],
    [20, 25, 30],
    [35, 40, 45]
    ])
    matrix == 25
    结果:
    [
    [False, False, False],
    [False, True, False],
    [False, False, False]
    ]
    使用'=='比较符来进行array中数据的筛选
    matrix = numpy.array([
    [5, 10, 15],
    [20, 25, 30],
    [35, 40, 45]
    ])
    second_column_25 = (matrix[:,1] == 25)
    print(matrix[second_column_25, :])
    上述例子中打印的结果为数组中所有第二列为25的行
    vector = numpy.array([5, 10, 15, 20])
    equal_to_ten_or_five = (vector == 10) | (vector == 5)
    这个例子为mulcondition之下的选择
    得到的equal_to_ten_or_five中存储的数据为数组中每个元素等于10或者等于5的结果

  • numpy中数据的替换
    matrix = numpy.array([
    [5, 10, 15],
    [20, 25, 30],
    [35, 40, 45]
    ])
    second_column_25 = matrix[:,1] == 25
    matrix[second_column_25, 1] = 10
    替换的结果为将matrix中第二列为25的元素替换为10

  • numpy中数据类型的转换
    使用array的内置函数astype()
    vector = numpy.array(["1", "2", "3"])
    vector = vector.astype(float)

  • numpy中内置函数
    array.sum()返回给定的一维数组中每个数据加起来的和,或者二维数组中所有行中每列元素加起来的和或者每列中每行元素加起来的和。我们利用axis的值来控制行和列,值为1代表操作在行元素上,值为0代表操作在列元素上
    array.mean()返回给定的数组中的平均值,用法类似sum()函数
    array.max()返回给定数组中的最大值
    matrix = numpy.array([
    [5, 10, 15],
    [20, 25, 30],
    [35, 40, 45]
    ])
    matrix.sum(axis=1)
    #result:[30, 75, 120]
    numpy的优点:
    数据的计算十分方便
    数据类型的转换容易实现
    数据的分割实现快捷
    缺点:
    所有的数据必须是一种类型
    对数据的索引必须通过数字

Pandas

  • 读入文件
    pandas.read_csv("filename")

  • 查看文件内容
    food_info.head(num)返回前num行数据元素
    查看所有的元素,使用columns属性:food_info.columns
    使用文件的shape属性可以查看文件的大小,shape属性返回一个元组,其中第一个值为行数,第二个值为列数

  • DataFrame的切分
    # DataFrame containing the rows at index 3, 4, 5, and 6 returned.
    food_info.loc[3:6]
    # DataFrame containing the rows at index 2, 5, and 10 returned. Either of the following work.
    food_info.loc[[2,5,10]]
    其中,loc函数的区间包括上边界和下边界
    列的
    columns = ["Zinc_(mg)", "Copper_(mg)"]
    zinc_copper = food_info[columns]

    # Skipping the assignment.
    zinc_copper = food_info[["Zinc_(mg)", "Copper_(mg)"]]
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容