学习记录:爬取个人微博

我的个人微博早前有大量跟好友的页面聊天数据,随着时间增多,发的微博近乎上万条,可是微博本身没有提供数据备份功能,查看了一下API文档,从官方提供的接口取得的数据也只是有限条,无法满足需要,因此萌发了写个爬虫用模拟登录的方式将所有发过的微博抓取下来。

一 、先分析一下微博网页版的结构和流程:

首先是登录,需要用户名、密码、验证码,登录成功后进入个人微博主页,在主页右边有一个年份侧边栏,从这里可以按时间查看所有发过的微博,这就是我主要的抓取对象了,再进一步查看页面结构可知,微博按年月进行数据读取,每一个月的微博有可能为0,也有可能有好几页,每一页需要将页面滚动到底部几次才会完全加载出来。

二、然后准备好工具:

Python 3.6
selenium 3.3.3
火狐浏览器驱动 geckodriver-v0.15.0-win64

三、难点与重点:

1、模拟登录过程

新浪微博的网页版登录过程比起别的有一点小曲折,它需要先输入用户名验证后才会显示验证码,不过既然是用selenium模拟,这些都不是问题。

verifyimg = browser.find_element_by_css_selector("img[node-type='verifycode_image']")  //验证码图片
num = 0
while verifyimg.get_attribute('src') == "about:blank":
    num = num + 1
    if num == 5:
        logger.info("验证码无法加载,请重试!")
        browser.quit()
        return
    userInput.click()  //模拟点击用户输入框以触发验证码显示
    time.sleep(8)
    pwInput.click()
    time.sleep(5)

模拟登录的重点是对验证码图片进行截图保存,用于后续人工识别输入,这一行代码我花了半天进行文档查询和编写调试,目前是在火狐浏览器上调试成功,但是后面我将驱动换成phantomjs,截取下来的却是整个页面。

verifyimg.screenshot("verifycode.png")

2、用脚本将页面拉到底部读取数据

从selenium官方文档上查到的方法,版本是3.3.3。

browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

3、判断某个年月的微博是否有下一页

由于为了方便抓取,设置了多个参数,于是为了判断下一页,各种语句调试了一天,才整出下面这段代码:

//pages:要下载的页面数;page:当前第几页;pagecount:总页面数
if (not pages) or (not isinstance(pages[0], int)) or (pages[0] > pagecount) or (pages[0] >= pagecount - page) or (pages[0] <= 0): #不传翻页数或者翻页数参数错误
        if page < pagecount:        
            page = page + 1
            getWeiboHtml(datenum, url, count, page)
        elif page == pagecount:
            logger.info("保存完毕!")
            return
  elif (pages[0] > 0) and (pages[0] < pagecount - page):
        if pages[0] == 1:
            logger.info("保存完毕!")
            return
        else:
            page = page + 1
            flip = pages[0]-1
            getWeiboHtml(datenum, url, count, page, flip)
    else:
        return

4、获取到第一条微博和最新一条微博的日期

第一条微博日期是通过点击微博主页的时间线,获取网址中的stat_date字段数据。
最新一条微博日期直接就从登录后的微博主页内容字段中解析。

5、日志系统

这次这个爬虫项目,不光学到了selenium的使用,还学到了Python自带的日志系统的使用,受益匪浅。
下面的函数使日志系统从文件里读取配置。

def setup_logging(
    default_path='logconfig.json', 
    default_level=logging.INFO,
    env_key='LOG_CFG'):
    path = default_path
    value = os.getenv(env_key, None)
    if value:
        path = value
    if os.path.exists(path):
        with open(path, 'r') as f:
            config = json.load(f)
        logging.config.dictConfig(config)
    else:
        logging.basicConfig(level=default_level)

然后在程序中引入日志进行记录:

import logging.config
logger = logging.getLogger(__name__)

6、selenium的安装

装selenium的时候并不顺利,一开始是想用chrome浏览器的,但是下载了chrome的驱动后无法使用,折腾了好久最后改用了火狐。

四、进阶

目前微博是以html文件的形式保存下来了,但是还需要继续编写解析器从html里面提取出结构化的数据,还有区别原创与转发,对表情和图片进行下载等,待以后有时间需要一一进行解决。
目前写的爬虫仅能在自己的机子上以命令行的形式运行,想要给朋友使用都不行,因此还要继续学习Python的打包与界面化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容