爬虫实战(二):Selenium 模拟登录并爬取信息

原文地址:https://blogof33.com/post/12/

前言

前一篇文章 爬虫实战(一):爬取微博用户信息 中爬取的是 https://weibo.cn 这个网页,但是由于该网页缺少维护,微博官方可能加了一些限制,导致稍微频繁一点的访问都会报 403 错误,加上每次手动获取 cookies 也比较麻烦,不友好,所以针对这些情况,我使用了一种新的抓取方式,也是一种更为高级的爬虫手段。

我之前在文章里面提到“ 爬取微博主页 https://weibo.com/ 或者 https://m.weibo.cn/ 较为困难 ”,为什么会这么说呢?因为这两种页面较新,所以采用的技术比较新颖,反爬措施做得要好一些。特别是它们采用了滚动式页面,每次向下滚动到底后会加载出新的内容,这种动态加载模式使得传统的改变网页地址中的页码获得相应内容的方法失效了,含有用户信息内容的源码需要抓包获取,或者直接操作浏览器获取。后者一般都是Selenium+PhantomJS来实现。

由于 Phantom.js 的维护者 Slobodin 在Google论坛上发帖表示,鉴于Chrome 59推出了无头浏览特性,他认为“Chrome比PhantomJS更快,更稳定”,没有理由再继续维护Phantom.js(开发者很有自知之明:P,不过 Phantom.js 确实是一个很好用的东西),所以本文采用 Selenium+Chrome/Firefox 无头浏览器的方式进行模拟登录和抓取用户动态信息的操作。

Selenium

Selenium 是一个浏览器自动化测试框架,起初是为了自动化测试开发的,在爬虫流行起来以后,也成为了一种爬虫的工具。它的功能简单来说就是可以控制浏览器,用代码模拟人对浏览器的操作,实现自动化。

安装

和大多数 python 包一样,selenium 可以使用 pip 进行安装:

# python 2
pip install selenium

# python 3
pip3 install selenium

因为 selenium 是对浏览器进行控制,所以首先要装对应的驱动(driver),Selenium 针对几个主流的浏览器都有相应的官方 driver。读者可以根据自己的情况下载并安装。比如笔者是使用的 Linux 系统上的 Chrome 浏览器最新版本,那么便下载相应版本的 driver ,下载完成以后,执行命令:

#/usr/bin 或者 /usr/local/bin
sudo cp 下载的driver位置 /usr/bin
sudo chmod +x /usr/bin/chromedriver

安装完成以后测试一下是否成功。

测试

首先来测试一下是否安装成功:

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')

运行这段代码,会自动打开浏览器访问百度。

如果程序执行错误,浏览器没有打开,那么可能是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里或者驱动和浏览器版本不匹配。

模拟登录

登录微博需要使用验证码,自动识别验证码这一块我研究了一下,使用图像识别,也不难,但是因为我们可以将cookies 持久化保存下来,使用手动输入验证码并不麻烦,所以自动识别验证码可以暂时先放一放,后面慢慢来研究。

使用 selenium 控制浏览器,通过对页面的元素进行定位来模拟人的操作,API 详细介绍请见 参考文档 。模拟登录代码如下:

def get():
    conf, engine = Connect('conf.yaml')  # 获取配置文件的内容
    loginname = conf.get('loginname')
    password = conf.get('password')

    loginname = list(loginname.values())
    password = list(password.values())
    with open('cookies.pkl', 'wb') as f:
        for i in range(len(password)):  # 将每个账号的cookies保存下来.
            try:
                driver = webdriver.Chrome()
                driver.set_window_size(1124, 850)  # 防止得到的WebElement的状态is_displayed为False,即不可见
                driver.get("http://www.weibo.com/login.php")
                time.sleep(5)
                #自动点击并输入用户名
                driver.find_element_by_xpath('//*[@id="loginname"]').clear()
                driver.find_element_by_xpath('//*[@id="loginname"]').send_keys(loginname[i])
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').clear()

                time.sleep(2)
                #自动点击并输入登录的密码
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').send_keys(
                    password[i])
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
                
                #输入验证码
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[3]/div/input').send_keys(
                    input("输入验证码: "))

                time.sleep(1)
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
            except Exception as e:
                print("验证码输入错误,请重新输入!")
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[3]/div/input').send_keys(
                    input("输入验证码: "))
                time.sleep(1)
                driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
            cookies = driver.get_cookies()
            pickle.dump(cookies, f)#序列化cookies对象

代码注释应该写得比较清楚,其中有一个细节就是我们需要将获取的 cookies 序列化。什么是序列化?

我们把变量从内存中变成可存储或传输的过程称之为序列化,即把数据写入临时或持久性存储区,而把变量内容从序列化的对象重新读到内存里称之为反序列化。

意思是在这里将 cookies 以二进制形式保存下来,这样可以方便后续爬虫使用。

使用 selenium 爬取用户信息

爬取用户信息的大致思路和上一篇文章 爬虫实战(一):爬取微博用户信息 差不多 ,但仍然有以下区别:

  • 爬取 https://m.weibo.cn/ 而不是 https://weibo.cn/
  • 使用 seenium 代替 requests 获取源码
  • 使用 selenium 加载滚动页面直到所有动态信息加载完成
  • 先使用正常的Chrome调试,调试完成以后再改成无头浏览器

首先我们来看微博 html5 移动端的页面长什么样:

微博HTML5界面

为什么选这个网址而不是PC端的页面呢?因为PC端的页面每向下滑动三次需要跳页,操作要繁琐一些,而且 selenium 容易因为失去焦点导致跳转失败,我也没找到很好的解决方法,而 html5 移动端的页面多次滑动到底便可以获得所有动态信息,不需要跳页,所以要简单很多。

再来看看使用 selenium 如何操作浏览器滑动到底,下面是相关的处理函数,这个函数将 web 页面滑动多次直到无法再滑动(即滑动到底了)并使用正则表达式提取出动态和动态发布时间:

#获取用户所有动态信息和动态发布时间并返回
def execute_times(driver):
    dynamic = []
    T = []
    d = re.compile(r'og"><div class="weibo-text">(.*?)<', re.S)  # 匹配动态
    t = re.compile(r'<span class="time">(.*?)<', re.S)  # 匹配动态发布时间
    
    #返回滚动高度
    last_height = driver.execute_script("return document.body.scrollHeight")

    while True:
        # 滑动一次
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        # 等待加载
        time.sleep(random.random())

        # 计算新的滚动高度并与上一个滚动高度进行比较
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height

    html = driver.page_source

    dynamic += re.findall(d, html)
    T += re.findall(t, html)
    return dynamic, T #返回用户所有动态信息和动态发布时间列表

得到用户所有动态信息和动态发布时间列表以后,其他处理和前一篇文章类似,在此不再累述,详情请见源码 weibo_spider.py

因为每次运行程序都需要弹出浏览器窗口,而且速度较慢,所以可以将浏览器设置成无头模式:

#Chrome
opt = webdriver.ChromeOptions()  # 创建chrome参数对象
opt.set_headless()  # 把chrome设置成无头模式,不论windows还是linux都可以,自动适配对应参数
driver = webdriver.Chrome(options=opt)#不制定options选项则是普通有头浏览器

#Firefox
opt = webdriver.FirefoxOptions()  
opt.set_headless() 
driver = webdriver.Firefox(options=opt)

至此模拟登录并爬取信息方法介绍完毕。

源码地址:https://github.com/starFalll/Spider# 爬虫实战(二):Selenium 模拟登录并爬取信息

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,277评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,689评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,624评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,356评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,402评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,292评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,135评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,992评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,429评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,636评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,785评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,492评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,092评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,723评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,858评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,891评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,713评论 2 354