玩转贴吧

小白爬完文字爬图片,目标百度贴吧。
其实是偶然的机会发现了这个:

旅行吧

当时就想,为什么创建这个“旅行吧”呀,从事物发展的规律来说,就是方便大伙儿各种晒图各种秀啊!能拿来晒的东西,敢情应该不会差到哪去(至少比一般的百度图片要好一些吧)

好了不多胡扯回归正题,几行代码,带足不出户的你,走遍万水千山!
先随便搜了个贴,好吧就是这个了


目标帖子

一、目标:

1、获取帖子标题、总页数、评论、图片
2、图片写入文件并保存
3、将各种信息实现打印(测试追踪)
4、输入帖子号便能实现以上操作(亦适用于其它帖子)

二、步骤:

1、获取源码。这个简单,用requests的get请求方式即可。这里设置了random.randint()获取随机数,在一堆范围中获取user_agent,主要是为了伪装防止网站认出是爬虫而限制抓取。至于这一堆user_agents,额,网上搜的哈哈~
'''
#usr/bin/env python
# -- coding: utf-8 --
def getSource(self,url):
user_agents=['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ (KHTML, like Gecko) Element Browser 5.0','IBM WebExplorer /v0.94', 'Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)','Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)','Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14','Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) \Version/6.0 Mobile/10A5355d Safari/8536.25','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) \Chrome/28.0.1468.0 Safari/537.36','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)'
index=random.randint(0,9)
user_agent=user_agents[index]
headers = {'User_agent': user_agent}
html=requests.get(url,headers=headers)
return html.text
'''

2、获取标题、总页数、评论
主要是匹配正则
标题的正则
'''

pattern=re.compile('<h1.*?title.*?>(.*?)</h1>',re.S)
items=re.search(pattern,result) 

'''
页数的正则
'''

pattern=re.compile('<h1.*?title.*?>(.*?)</h1>',re.S)
items=re.search(pattern,result)   

'''
评论的正则
'''

pattern=re.compile('<h1.*?title.*?>(.*?)</h1>',re.S)
items=re.search(pattern,result)

'''

3、获取晒图
用到BeautifulSoup,首先想到find_all()搜'img'标签,得到如下

图1.png

龙蛇混杂呀,不仅包括各种旅行晒图,还有链接中包含'head'的头像图,含'emoticon'的表情图等等,宝宝内心是崩溃哒。
如何洗出我们想要的内容呢?
别着急,仔细观察这些个链接,逐个点开一试就会发现,凡是属于'晒图'的,接带有属性class='BDE_Image'。
我的天,直接find_all()限定范围,再循环打出item['src'],分分钟搞定链接!要有多简单就有简单,最后将链接保存至一个list中。

图2.png

4、创建目录
用到makedirs(),值得注意的是,如果想将文件夹创建至非系统默认的地方,需要用到chdir()来更改环境变量。

5、保存晒图
万水千山走遍,目录也创建,接下来就是保存图片。又用到文件操作相关知识,千万注意,要想将图片成功保存至上面创建的目录,必需指定绝对路径,所以设置self.path是为了方便此处调用。

6、集合各操作并获取多页
两个循环,一个是多页,一个是多个图片的保存。关键在格式化每一页索引链接。
观察可发现规律,网页URL格式为:'http://tieba.baidu.com/p'+帖子号+'?pn='+页数,所以可以设置如下:
'''

self.siteURL = 'http://tieba.baidu.com/p/' + str(Num)
self.url=self.siteURL+'?pn='+str(page)

'''

三、代码

以上就是基本的思路,接下来分享代码,如有错误还望指正
'''
#usr/bin/env python
# -- coding: utf-8 --
author='WYY'
date='2017.03.14'

#实战小项目:百度贴吧爬虫
import urllib2
import requests
import re
import os
import time
import random
from bs4 import BeautifulSoup

#定义一个Tool()类方便清洗数据
class Tool():
    removeImg = re.compile('<img.*?>|{7}| ') # 去除img标签,1-7位空格, 
    removeAddr = re.compile('<a.*?>|</a>') # 删除超链接标签
    replaceLine = re.compile('<tr>|<div>|</div>|</p>') # 把换行的标签换位\n
    replaceTD = re.compile('<td>') # 把表格制表<td>换为\t
    replaceBR = re.compile('<br><br>|<br>|</br>|</br></br>') # 把换行符或者双换行符换为\n
    removeExtraTag = re.compile('.*?') # 把其余标签剔除
    removeNoneLine = re.compile('\n+') # 把多余空行删除
    def replace(self, x):
        x = re.sub(self.removeImg, "", x)
        x = re.sub(self.removeAddr, "", x)
        x = re.sub(self.replaceLine, "\n", x)
        x = re.sub(self.replaceTD, "\t", x)
        x = re.sub(self.replaceBR, "\n", x)
        x = re.sub(self.removeExtraTag, "", x)
        x = re.sub(self.removeNoneLine, "\n", x)
        return x.strip() # 把strip()前后多余内容删除

#定义一个Spider类
class Spider():
    #初始化参数
    def __init__(self):
        self.tool = Tool()

    #获取源码
    def getSource(self,url):
        user_agents=['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ \(KHTML, like Gecko) Element Browser 5.0','IBM WebExplorer /v0.94', 'Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)','Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)','Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14','Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) \Version/6.0 Mobile/10A5355d Safari/8536.25','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) \Chrome/28.0.1468.0 Safari/537.36','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)']
        # user_agent在一堆范围中随机获取
        # random.randint()获取随机数,防止网站认出是爬虫而访问受限
        index=random.randint(0,9)
        user_agent=user_agents[index]
        headers = {'User_agent': user_agent}
        html=requests.get(url,headers=headers)
        return html.text

    #获取帖子标题
    def getTitle(self,url):
        result=self.getSource(url)
        pattern=re.compile('<h1.*?title.*?>(.*?)</h1>',re.S)
        items=re.search(pattern,result)
        print u'这篇帖子标题为:',self.tool.replace(items.group(1))

    #获取帖子总页数
    def getPageNumber(self,url):
        result=self.getSource(url)
        pattern=re.compile('<ul.*?l_posts_num.*?<span class="red">(.*?)</span>',re.S)
        items=re.search(pattern,result).group(1)
        print u'帖子共有',items,u'页'
        return items

    #获取评论内容
    def getContent(self,url):
        result = self.getSource(url)
        pattern=re.compile('<a data-field.*?p_author_name.*?">(.*?)</a>.*?<div id="post_content_.*?>(.*?)</div>',re.S)
        items=re.findall(pattern,result)
        #获取楼层数可以直接用循环,省去正则匹配的麻烦
        number = 1
        for item in items:
            #item[0]为楼主,item[1]为发言内容,使用\n换行符打出内容更干净利落
            #item[1]中可能有img链接,用自定义Tool工具清洗
            print u'\n', number, u'楼', u'\n楼主:', item[0], u'\n内容:', self.tool.replace(item[1])
            time.sleep(0.01)
            number += 1

    #获取晒图,清洗获得链接并保存入list
    def getImage(self,url):
        result=self.getSource(url)
        soup=BeautifulSoup(result,'lxml')
        #此处用BeautifulSoup显然更高效
        #find_all()返回一个list,find()返回一个元素
        #注意class属性和python内置的重合,所以加_变成class_
        items=soup.find_all('img',class_="BDE_Image")
        images=[]
        number=0
        for item in items:
            print u'发现一张图,链接为:',item['src']
            images.append(item['src'])
            number+=1
        if number>=1:
            print u'\n',u'共晒图',number,u'张,厉害了我的哥!!!'
        else:
            print u'喏,没有图......'
        return images

    #创建目录
    def makeDir(self,path):
        self.path=path.strip()
        E=os.path.exists(os.path.join('F:\Desktop\code\LvXing', self.path))
        if not E:
            #创建新目录,若想将内容保存至别的路径(非系统默认),需要更环境变量
            #更改环境变量用os.chdir()
            os.makedirs(os.path.join('F:\Desktop\code\LvXing', self.path))
            os.chdir(os.path.join('F:\Desktop\code\LvXing', self.path))
            print u'正在创建名为',self.path,u'的文件夹'
            return self.path
        else:
            print u'名为',self.path,u'的文件夹已经存在...'
            return False

    #万水千山走遍,接下来就是保存美图
    def saveImage(self,detailURL,name):
        data=urllib2.urlopen(detailURL).read()
        fileName=name+'.'+'jpg'
        #保存文件,一定要用绝对路径      `
        #所以设置self.path,是为了方便后面函数无障碍调用
        f=open(r'F:\Desktop\code\LvXing\%s\%s'%(self.path,fileName),'wb')
        f.write(data)
        f.close()
        print u'成功保存图片',fileName


    #集合所有的操作,并获取多页
    def getAllPage(self,Num):
        self.siteURL = 'http://tieba.baidu.com/p/' + str(Num)
        #获取帖子标题
        self.getTitle(self.siteURL)
        #获取帖子页数
        numbers=self.getPageNumber(self.siteURL)
        for page in range(1,int(numbers)+1):
            #格式化索引链接
            self.url=self.siteURL+'?pn='+str(page)
            print u'\n\n',u'正准备获取第',page,u'页的内容...'
            #获取评论
            print u'\n',u'正准备获取评论...'
            self.getContent(self.url)
            #每一页创建一个文件
            self.makeDir(path='page'+str(page))
            #获取图片
            print u'\n',u'正准备获取图片...'
            images=self.getImage(self.url)
            print u'\n',u'正准备保存图片...'
            number=1
            #保存图片,先从之前的list中找链接
            for detailURL in images:
                name='page'+str(page)+'num'+str(number)
                self.saveImage(detailURL,name)
                time.sleep(0.1)
                number+=1

            print u'\n\n',u'完成第',page,u'页'

        print u'\n\n',u'恭喜,圆满成功!'

#raw_input()实现和外部交互,想看哪个贴就看哪个贴
Num=int(raw_input('老哥儿/老妹儿,输入帖子号呗:'))
spider=Spider()
spider.getAllPage(Num)

'''

四、结果

终于写完代码啦,各种参数要注意处理好。
然后可以看到如下结果:

图3.png
图4.png
图5.png

看看文件的变化,图片已经乖乖躺在文件夹中啦


图6.png
图7.png

五、扩展

爬完上面这个贴,又去胡乱搜寻,发现两有趣的贴。
喜爱摄影的盆友看过来啦~
一个是:国外朋友的世界一周旅行记1,Uca姐的摄影好美(献给所有爱旅者)
另一个:背起画夹去旅行——且行且绘(陆续更新)

1)、前面这一个介绍了一个日本旅行摄影师的世界一周旅行记的故事,照片色彩明丽、利落干净,迎面满是异域风情。
举例几个图:


旅行1.png

旅行2.png

一共100页,一页也就四五十张图。。。不过摄影师的图还是相当的赞啊


图8.png

2)另一个帖子更是好玩,楼主非常有才,把沿途所见所闻都一一画下,画风那叫一个清新雅致,不得不献上膝盖。
放几个图感受一下:


旅行3.png

旅行4.png

旅行5.png

其实还有很多这样的帖子,随便输入帖子号便玩转贴吧,几行代码走遍万水千山,就是这样啦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,649评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,050评论 25 707
  • 视窗1985阅读 213评论 0 0
  • 一定有人会说,我的天啦,你才用简书。你好无知啦! 相信也一定有人会说,简书有什么好玩的?还不如我看看微博呢! 有人...
    玉儿哥阅读 191评论 0 0
  • 断桥衫冷寒霜迹 孤山襟短椅云齐 残月荡空情未灭 玉壶倾尽神已迷 恍闻飞凤舞青影 又见惊鸿逐彩霓 偏有漏长叹永夜 觉...
    隐天痕阅读 182评论 0 0