浅析豆瓣电影TOP250榜单——C2 数据收集

我们在抓取信息之前先看一下豆瓣网的robots协议:

User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /trailer/
Disallow: /doubanapp/card
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5

User-agent: Wandoujia Spider
Disallow: /

可以看到我们要抓取的/top250并不在禁止之列,那么在不影响服务器性能的前提下,可以合理的运用爬虫来抓取所需的信息。

抓取信息的第一步,引入PythonHTTPrequests用来模拟浏览器登录网页,解析网页Html文档的库lxml以及用来匹配文本信息的正则表达式库re

由于网页结构相对比较简单,所以这里直接使用xpath来定位标签,获取对应所需的信息。其实也可以引入BeautifulSoup库简化定位标签节点的过程。

import requests
from lxml import html
import re

定义一个抓取函数,其中用到requests库的get方法模拟httpget请求来获取信息,得到一个名为rrequests对象。

def get_html_text(url, headers):
    try:
        r = requests.get(url=url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text  # 响应内容
    except:
        return 'Gather Error'

其中:

  1. raise_for_status()方法的作用是:若requests对象的状态码不为200,则引发HTTPError异常。
  2. r.encodingHTTP header中猜测的响应编码方式,r.apparent_encoding为从内容中分析出的响应内容编码方式。

根据观察可以看出250条电影信息存放在10个页面内,使用变量i计数,在0~10个页面内抓取信息。此函数需要使用变量计数,记录抓取电影的个数,此变量设置为x,每个循环内的x即为当前页面内抓取的信息条数。抓取页面信息使用的是requests库的get方法,再使用text方法得到页面文本内容。

豆瓣网页源码

观察网页源码可以看出,所有的信息都在每个class属性为infodiv标签里。依此类推定位到各信息所在标签,代码如下:

def douban_top250_spyder(text, x):  # 用于定位信息
    # 所有的信息都在class属性为info的div标签里
    for j in text.xpath('//div[@class="info"]'):
        title = j.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]  # 影片名称
        info = j.xpath('div[@class="bd"]/p[1]/text()')  # 信息段
        rate = 9j.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')[0]  # 评分
        com_count0 = j.xpath('div[@class="bd"]/div[@class="star"]/span[4]/text()')[0]  # 评论人数
        com_count = re.match(r'^\d*', com_count0).group()  # 仅保留数字
        quote0 = j.xpath('div[@class="bd"]/p[@class="quote"]/span[@class="inq"]/text()')  # 短评
        quote = '无' if quote0 == [] else quote0[0].replace(",", ",")  # 若短评不存在则使用‘无’替代,并将短评中的英文逗号替换为中文逗号,避免影响CSV文件的处理
        date = info[1].replace("\n", "").strip(' ').split("\xa0/\xa0")[0]  # 上映日期
        country = info[1].split("\xa0/\xa0")[1]  # 制片国家
        genre = info[1].replace("\n", "").strip(' ').split("\xa0/\xa0")[2]  # 影片类型

打印出得到的信息,在控制台核查:

print("x" % str(k), title, rate, com_count, date, country, genre, quote)  # 打印结果
loop 1
1 肖申克的救赎 9.6 835810 1994 美国 犯罪 剧情 希望让人自由。
2 这个杀手不太冷 9.4 801886 1994 法国 剧情 动作 犯罪 怪蜀黍和小萝莉不得不说的故事。
霸王别姬 9.5 597808 1993 中国大陆 香港 剧情 爱情 同性 风华绝代。
4 阿甘正传 9.4 686379 1994 美国 剧情 爱情 一部美国近现代史。
5 美丽人生 9.5 399229 1997 意大利 剧情 喜剧 爱情 战争 最美的谎言。
 ...
loop 10
 ...
23 彗星来的那一夜 8.3 149338 2013 美国 英国 科幻 悬疑 惊悚 小成本大魅力。
24 黑鹰坠落 8.5 101144 2001 美国 动作 历史 战争 还原真实而残酷的战争。
25 假如爱有天意 8.2 216192 2003 韩国 剧情 爱情 琼瑶阿姨在韩国的深刻版。

写入所得到的信息,以逗号分割,存为csv文件。

with open("douban_top250_demo.csv", "a") as f:  # 写入文件
    f.write("%s,%s,%s,%s,%s,%s,%s\n" % (title, rate, com_count, date, country, genre, quote))
x += 1  # 每条电影信息打印完后计数加一

最后,执行代码主体:

headers_douban = {
        'Accept': '*/*',
        'Accept-Encoding': 'gzip, deflate, sdch, br',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Connection': 'keep-alive',
        'Referer': 'http://www.douban.com/',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)\
         Chrome/58.0.3029.110 Safari/537.36'
    }  # 请求头部

if __name__ == '__main__':  # 执行代码
    for i in range(10):  # 每页25个电影,共10页,程序在其中做循环,抓取信息。
        print('loop', i+1)  # 显示第几圈        
        url_douban = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)  # 目标网站迭代形式
        text0 = get_html_text(url_douban, headers_douban)  # 请求得到的网页文本内容
        text_douban = html.fromstring(text0)  # 转换为html类数据,便于xpath处理获取信息
        num_counting = 1  # 计数
        douban_top250_spyder(text_douban, num_counting)

得到的效果如下:

完整代码


上一章: C1 概要

下一章: C3 数据处理

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,682评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,277评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,083评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,763评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,785评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,624评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,358评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,261评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,722评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,900评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,030评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,737评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,360评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,941评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,057评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,237评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,976评论 2 355

推荐阅读更多精彩内容