网络爬虫之reddit爬取-后续

之前写的那个reddit爬取不含细节,因为我最后爬取没有采用爬取所有的小板块,而是采取了从网页
https://www.reddit.com/r/Wishlist/search?q=flair%3A%27chat%27&restrict_sr=on&sort=new&feature=legacy_search&count=26&before=t3_6omz4l
开始爬取,现在把这个的爬取过程和代码写下来,含较多细节,想直接要数据的也可以私信我,不过新手的话爬一下也正好学习一下不是吗?

准备工作

注:不熟悉scrapy的朋友还是看我上一篇文章推荐的两个链接先熟悉一下。
不熟悉爬取技巧的也推荐看一下

1. 确定爬取的起始网页

网站的开始页面为上图所示。
所以start_url为该页面的url:
https://www.reddit.com/r/Wishlist/search?q=flair%3A%27chat%27&restrict_sr=on&sort=new&feature=legacy_search&count=26&before=t3_6omz4l

2. 如何获取下一页

用Firebug工具使用点击查看next按钮这个元素,如下图所示。

右键点击复制xpath得到xpath:

/html/body/div[5]/div[4]/div[51]/span/span/a

结合图中html中的显示:

<a href="略" rel="nofollow next">next ›</a>

获取方式为:

next_page  = selector.xpath('//a[@rel="nofollow next"]/@href').extract() 

3. 如何获取图中每个小块跳转到的链接页面

以第一个[Chat] August 15, 2017为例:
同样用Firebug工具使用点击查看这个元素同时右键复制xpath,得到在

  1. 在html中的显示:

     <a class="title may-blank " data-event-action="title" href="/r/Wishlist/comments/6tt6vs/chat_august_15_2017/" ...>略</a>
     # 而跳转到的网页的url如下
     https://www.reddit.com/r/Wishlist/comments/6tt6vs/chat_august_15_2017/
    

可以看出是 https://www.reddit.com + href中的内容组合而成

  1. xpath为:

     /html/body/div[5]/div[4]/div[1]/div[2]/div[1]/p[1]/a
    

获取方式为:

comment_page  = selector.xpath('//a[@data-event-action="title"]/@href').extract() 

4. 如何获取界面中的每一组谈话

上一步获取的界面为下图所示

首先获取最上面的开始话题的那一句话

xpath为:/html/body/div[5]/div[1]/div[1]/div[2]/div[2]/form/div/div/p

然后获取下面每一个小块区域中的话

第一种方法:

comment_zone = selector.xpath('//div[@data-type="comment"]')

然后

for conversation in comment_zone:
    talk = conversation.xpath('//div[@class="usertext-body may-blank-within md-container "]/div/p/text()').extract()

这样还是不能解决对话的逻辑问题。

第二种方法:
需要更仔细的观察html结构,可以利用一种深度优先搜索的感觉。
先看一下xpath:
最外面:

/html/body/div[5]/div[2]/div[3]/

第一层:

/html/body/div[5]/div[2]/div[3]/+div[*]/+div[2]/form/div/div/p

第二层:

/html/body/div[5]/div[2]/div[3]/+div[*]/+div[3]/div/div[*]/+div[2]/form/div/div/p

第三层:

/html/body/div[5]/div[2]/div[3]/+div[*]/+div[3]/div/div[*]/+div[3]/div/div[*]/+div[2]/form/div/div/p

找到了规律。
然后结合在html中的表示,现在贴上代码,进行解释:

  1. 获取每个小块跳转到的链接页面,然后调用parse_page
  1. 然后利用递归的思想。
    parse_page为入口,负责获取最上面的开始话题的那一句话和调用parse_zone
    parse_zone为一个递归函数,当不再有向下的评论时便返回itemitem里面存的是对话序列,否则就继续调用,反正就是个深度优先搜索的感觉,不过互不影响所以可以并行地爬取。
    注:这里需要特别说明的是,meta是一个scrapy用来传递参数的方法,还是比较有用的,传递的是一个字典。然后对于正则表达式和一些编码的问题,希望读者也可以自己去耐心了解。

     def parse_zone(self, response):
     # 采用递归思想,相当于一个深度优先搜索
     pre_path = response.meta['pre_path'][:]
     pre_comment_list = response.meta['pre_comment_list'][:]
     now_layer_spec = response.selector.xpath(pre_path +'div[@class="child"]/div[@class="sitetable listing"]/div[*]/div[@class="entry unvoted"]//div[@class="md"]/p[1]').extract()
     if len(now_layer_spec)>0:
         i = 1
         for spec in now_layer_spec:
             if len(spec)<1:
                 break
             next_layer_path = pre_path + 'div[@class="child"]/div[@class="sitetable listing"]/div['+str(i)+']/'
             now_comment_list = pre_comment_list[:]
             tmp_conv = re.sub("a href(.*?)</a>",'',str(spec).encode('unicode_escape').strip('<p>').strip('</p>'))
             now_comment_list.append(tmp_conv)
             yield scrapy.http.Request(str(response.url), callback=self.parse_zone, meta={'pre_path':next_layer_path[:], 'pre_comment_list':now_comment_list[:]}, dont_filter=True)
             i += 2
     else:
         item = RedditItem()
         item['talks'] = pre_comment_list[:]
         yield item
    
     def parse_page(self, response):
     # 获取最上面的开始话题的那一句话
     first_talk = response.selector.xpath('//div[@id="siteTable"]/div[@data-context="comments"]/div[@class="entry unvoted"]//div[@class="md"]/p[1]').extract()
     # 获取下面每一个小块区域
     comment_zone = response.selector.xpath('//div[@class="commentarea"]/div[@class="sitetable nestedlisting"]/div[*]/div[@class="entry unvoted"]//div[@class="md"]/p[1]').extract()
     i = 1
     for convers in comment_zone:
         if len(convers) <1:
             break
         next_layer_path = '//div[@class="commentarea"]/div[3]/' + 'div['+str(i)+']/'
         tmp_list=[]
         tmp_conv1 = re.sub("a href(.*?)</a>",'',str(first_talk[0]).encode('unicode_escape').strip('<p>').strip('</p>'))
         tmp_list.append(tmp_conv1)
         tmp_conv2 = re.sub("a href(.*?)</a>",'',str(convers).encode('unicode_escape').strip('<p>').strip('</p>'))
         tmp_list.append(tmp_conv2)
         yield scrapy.http.Request(str(response.url), callback=self.parse_zone, meta={'pre_path':next_layer_path[:], 'pre_comment_list':tmp_list[:]}, dont_filter=True)
         i += 2
    

自认为写的还算明白,也就不再做过多解释了。

开始爬取

准备工作差不多了,剩下的事情就是按照scrapy的框架写一下其它文件,然后放到服务器上跑了,至于服务器的相关问题可以看我之前的文章。

最近在看神经网络的事情,所以之前的文章有不全面的也暂时不更新了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,848评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,529评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,824评论 0 327
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,329评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,227评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,879评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,218评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,877评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,159评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,155评论 2 315
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,987评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,736评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,273评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,407评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,663评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,158评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,517评论 2 339

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,546评论 18 139
  • reddit是一个国外的论坛性质的东西,为了做chatbot,所以准备爬一些数据下来。 准备工作 —— scrap...
    Ydrivemecrazy阅读 6,073评论 2 3
  • 苏幕遮 岁月安好 寻柳依,风正好。百目回瞻,叠澜染芳草。 欲醉东坡秋水调。折枝倾慕,自怜花容笑。 掩云月,古蔓道。...
    Ianvono阅读 405评论 1 1
  • 上学那会特别喜欢心理学,吸引力法则上说,能量是一个震动场,你发出什么能量就会吸引什么能量。 潜意识控制着我们的人生...
    鲜嫩多汁小肉包阅读 126评论 1 3
  • 感恩教育是培养传承中华民族优秀道德传统的基本要求。父母拿钱让我上学不容易。感恩是中华民族的传统美德,中国历来就有“...
    MU心阅读 7,710评论 0 1