Pandas 教程 — 筛选让你动心的电影(1)

在学习 Pandas 之前,首先需要安装 Pandas,在 Python 中安装模块使用 pip install 模块名 即可,但因为 Pandas 依赖于很多包,所以直接安装的话很大概率会遇到各种各样的问题。

建议直接安装 Anaconda,省时省心,Anaconda 会默认安装众多流行的科学、数学、工程、数据分析的模块,比如 Numpy、Scipy、Matplotlib、Pandas 等,同时可以方便地对各种模块进行管理, 搭配着使用 Python 编辑器 Pycharm,干活绝对不累。安装时请注意区分不同的版本,本教程使用的是 Python 2.7。

一切就绪后,开始读取电影数据文件 (下载),看看数据都有啥

import pandas as pd

movie_pd = pd.read_csv('douban_movie.csv', header = 0, sep = '\t')
print movie_pd.info()

pd.read_csv( ) 负责把 csv 文件读入进来,关于文件的读取操作之后会专门讲,这里先不用太在意,把数据跑起来再说,然后 movie_pd.info( ) 输出如下:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3688 entries, 0 to 3687
Data columns (total 16 columns):
actor_count     3688 non-null int64
actors          3688 non-null object
category        3688 non-null object
cover_url       3688 non-null object
id              3688 non-null int64
is_playable     3688 non-null bool
is_watched      3688 non-null bool
rank            3688 non-null int64
rating          3688 non-null object
regions         3688 non-null object
release_date    3688 non-null object
score           3688 non-null float64
title           3688 non-null object
types           3688 non-null object
url             3688 non-null object
vote_count      3688 non-null int64
dtypes: bool(2), float64(1), int64(4), object(9)
memory usage: 410.6+ KB
None

这个输出的信息量很大,有索引、列名、列的数据类型 ( int64、bool、float64、object )。

可以看出电影数据共有 16 列,列名分别是:actor_count (主演的人数)、actors (主演列表)、category (分类)、cover_url (封面图片网址)、id (电影id)、is_playable (是否可以播放)、is_watched (是否可以观看)、rank (排名)、rating (评分, 含星级)、regions (制片国家)、release_date (上映日期)、score (评分)、title (电影标题)、types (类型, 多个)、url (电影详情页网址)、vote_count (评价的人数)。

对应的豆瓣电影页面如下:

image

然后接着看看能不能得到一些定量的数据

print movie_pd.describe()

输出的结果如下:

actor_count            id         rank        score     vote_count
count  3688.000000  3.688000e+03  3688.000000  3688.000000    3688.000000
mean      8.418655  3.655456e+06   124.189534     8.522587   71773.012744
std       6.067463  6.095063e+06   116.329492     0.394342  119190.948797
min       0.000000  1.291543e+06     1.000000     7.300000     305.000000
25%       4.000000  1.296384e+06    36.000000     8.300000    3513.000000
50%       7.000000  1.307067e+06    87.000000     8.500000   15786.000000
75%      12.000000  2.150085e+06   177.000000     8.800000   85188.000000
max      54.000000  2.710254e+07   534.000000     9.700000  875424.000000

可以看出,对于变量类型是 int64 和 float64 的数值型变量,列出了个数、均值、方差、最小值、最大值和四分位数。比如这些电影平均 vote_count 是 71773 人,最多有 875424 个人对某个电影进行了评分,电影平均 score 高达 8.5 分等。

最后,看看原始数据长什么样子

print movie_pd.head()
print movie_pd.tail()

输出结果如下:

actor_count                  actors                category
0           19    [张国荣, 张丰毅, 巩俐, 葛优...           同性   
1           10    [伊恩·麦克莱恩, 德里克·雅各比...          同性   
2            5    [蒂莫西·柴勒梅德, 艾米·汉莫...            同性   
3            3    [张国荣, 梁朝伟, 张震]                   同性   
4            5    [赵文瑄, 归亚蕾, 金素梅, 郎雄...]         同性                                cover_url                       id       is_playable 
0  https://img3.doubanio.com/view/movie_...   1291546        True   
1  https://img3.doubanio.com/view/movie_...   26700818       False   
2  https://img3.doubanio.com/view/movie_...   26799731       False   
3  https://img3.doubanio.com/view/movie_...   1292679        False   
4  https://img3.doubanio.com/view/movie_...   1303037        False   

   is_watched  rank     rating         regions      release_date   score  
0       False     1  [9.5, 50]     [中国大陆, 香港]     1993-01-01    9.5  
1       False     2  [9.3, 50]     [英国]              2016-06-19    9.3   
2       False     3  [9.3, 50]     [意大利, 法国...]    2017-01-22    9.3   
3       False     4  [8.8, 45]     [香港, 日本, 韩国]   1997-05-30    8.8   
4       False     5  [8.8, 45]     [台湾, 美国]        1993-08-04    8.8   

       title                 types
0       霸王别姬          [剧情, 爱情, 同性]   
1  极品基老伴:完结篇          [喜剧, 同性]   
2  请以你的名字呼唤我          [爱情, 同性]   
3       春光乍泄          [剧情, 爱情, 同性]   
4         喜宴       [剧情, 喜剧, 爱情, 同性, 家庭]   

                       url                       vote_count  
0   https://movie.douban.com/subject/1291546/      629403  
1  https://movie.douban.com/subject/26700818/       13516  
2  https://movie.douban.com/subject/26799731/         739  
3   https://movie.douban.com/subject/1292679/      240127  
4   https://movie.douban.com/subject/1303037/      133193  

head( ) 方法会默认显示出 movie_pd 的前 5 行数据

tail( ) 方法会默认显示 movie_pd 的后 5 行数据

如果想要显示多于 5 行的数据怎么办呢?传入参数可以,比如 movie_pd.head(10) 表示显示前 10 行数据,tail(20) 表示显示后 20 行数据。

划重点

  • info( ) 查看数据有哪些字段和字段对应的数据类型
  • describe( ) 对数值型变量进行统计性描述
  • head( n ) 显示数据前 n 行
  • tail( n ) 显示数据后 n 行
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,084评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,623评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,450评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,322评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,370评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,274评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,126评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,980评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,414评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,599评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,773评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,470评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,080评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,713评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,852评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,865评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,689评论 2 354