IR01豆瓣图书Top250数据爬取实验报告

实验目的:

本次试验目的为掌握基本的网站信息爬取技巧,主要是使用CSS selector和xpath来进行网页元素定位。

实验要求:

使用CSS selector和xpath爬取豆瓣图书250的关键信息

实验工具:

Centos2.7;Python3;xftp;xshell;scrapy 框架

实验分工:

本次作业由小组成员相互讨论,各自进行独立实验并相互交流问题;最后由胡云撰写实验报告。

实验过程:

1.进入Linux操作系统

2.输入scrapy shell 'https://book.douban.com/top250?icn=index-book250-all'

3.输入代码开始爬取

具体代码如下:

爬取代码:

CSS:

for book in response.css("div.indent table"):

            pic=book.css("td a img::attr(src)").extract()

            title=book.css("div.pl2 a::text").extract()

            author=book.css("p.pl::text").extract()

            title2=book.css("div.pl2 span::text").extract()

            score=book.css("div>span.rating_nums::text").extract()

            comm_num=book.css("div>span.pl::text").extract()

            quote=book.css("td p.quote span.inq::text").extract()

            print('书名:',title),

            if title2:

                print('别名:',title2)

            print('图片:',pic),

            print('作者及其他信息:',author),

            print('评分:',score),

            print('评价人数:',comm_num),

            print('名言:',quote)

XPath:

for i in response.xpath('//div[@class="indent"]/table'):

            item = HomeworkItem()

            item['image'] = i.xpath('.//img/@src').extract_first()

            item['title'] = i.xpath('.//div[@class="pl2"]/a/text()').extract_first().strip()

            item['E_title'] = i.xpath('.//div[@class="pl2"]/span/text()').extract()

            item['publish'] = i.xpath('.//p[@class="pl"]/text()').extract()

            item['score'] = i.xpath('.//div[@class="star clearfix"]/span[@class="rating_nums"]/text()').extract()

            item['commentnum'] = i.xpath('.//div[@class="star clearfix"]/span[@class="pl"]/text()').extract_first().strip('()\n ')

            item['quote'] = i.xpath('.//p[@class="quote"]/span/text()').extract()

            yield item

爬取过程中遇到的问题:

1.爬取过程中遇到403forbidden,被禁止爬取

解决方法:将USER_AGENT改为:USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

2.爬取的内容格式不对,无法很好地完成for循环问题

原因在于缩进格式不对,改了之后就达成目标

爬取结果截图:


导出为json文件格式截图:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容

  • 需要准备 redis mongodb scrapy-redis 这些自己百度安装 1.对要爬取的页面进行分析。。。...
    a十二_4765阅读 2,910评论 2 3
  • 1. 感恩今天温度又升起来了,窗外阳光美好,竟然不那么期待秋天了 2.感恩同事信任和包容,接纳偶尔犯点迷糊,犯二的...
    Wendy_6afa阅读 171评论 0 0
  • 《渡》 奇怪的人们都在海里 奇怪的人们总要装作 人们注定要远渡生命的彼岸 或因结局大都注定 奇怪的人们总要装作 奇...
    有丢阅读 299评论 2 4
  • 冰在窗户上作画 我在冰上作画 一抹 抹掉了凤凰金色的羽毛 再抹 树上的叶子不见了 双手一按 出现了两座五指山 有时...
    拈花惹草阅读 166评论 0 4
  • 我坐在书桌前,正在纠结写什么,太久没有投入读书,写字,竟生疏得很。上午天上大大的太阳,万里无云,但是预报却显示有阵...
    向日葵3阅读 472评论 0 0