记一次Python爬虫分享

一、爬虫的目标

网址:http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html

这是广东省政府采购网公布的中标公告,网站如下:

网页截图

我们要进入具体的公告中,爬一下内容:

我们要爬红色框里的内容

将红色框里的数据整理表格形式。

二、分析网站

具体爬虫之前分析一下网站,决定如何进行爬虫。

翻页

留意一下,我们进入该网站后,点击跳转到第2页或别的页,可以发现浏览器的网址框中的网址是一样的。我们用控制台看一下,可以发现,页数的跳转是用JavaScript处理的,如下图:

控制台查看

所以,我们不能直接借助网址跳到不同的页数去,我想到的办法是借助Python的selenium包。它可以借助浏览器,模拟鼠标操作,待JavaScript处理完后再获取网页源码。

标题链接

通过看网页源码,其实发现源码是很清晰的,可以直接爬到链接。

网页源码

这个网址看得出来是个相对路径,我们进去之后可以在浏览器看到完整路径。

完整的网址

具体内容

通过看网页源码,要爬的内容在源码中也都有了。

网页源码

小结

小结一下,这次的爬虫难点主要在于翻页,中间过程要爬的标题链接和最终要爬的具体内容,都可以用一般的爬虫方法得到。

所以,爬虫的思路是:

  1. 借助selenium实现翻页;
  2. 翻页过程中把标题链接爬下来;
  3. 循环进入各个公告,把要爬的具体数据爬下来。

三、编程

先把要引用的包引用进来:

import urllib.request
import re
from selenium import webdriver
import csv

实现翻页

首先,使用selenium打开网站。

url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'

browser = webdriver.Firefox()   # 使用Firefox浏览器
browser.set_page_load_timeout(5)
browser.get(url)    # 打开指定网站
browser.maximize_window()   # 最大化浏览器窗口

注意:使用selenium打开浏览器时,需要在电脑上装一个浏览器的驱动。网页会跳转提示,根据提示下载安装即可!

然后,锁定源码中<下一页>按钮的位置。<下一页>按钮的标签比较难以确定位置,在这里我使用find_element_by_xpath()函数,来确定位置。至于该按钮的xpath,我们可以借助chrome直接复制出来。

借助chrome浏览器控制台复制xpath

完善修改代码:

url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'

browser = webdriver.Firefox()   # 使用Firefox浏览器
browser.set_page_load_timeout(5)
browser.get(url)    # 打开指定网站
browser.maximize_window()   # 最大化浏览器窗口

# 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
# 首先点击第一页中的<下一页>按钮
browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()

# 这里点击其余页中的<下一页>按钮
for i in range(1):  # 写一个循环,翻多少页就循环多少次
    browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()

注意:第一页和其余页的<下一页>按钮的xpath不一样,需要留意一下!

爬取标题链接

首先,写一个爬取标题链接的函数:

# 获取标题链接
def getConn(html):
    # 利用正则表达式匹配网页内容找到标题地址
    reg = r'(/showNotice/id/[^s]*?html)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
    return imglist

这只是一个函数,我们结合之前写好的翻页的代码,爬一下前两页的标题链接,看看效果:

# 获取标题链接
def getConn(html):
    # 利用正则表达式匹配网页内容找到标题地址
    reg = r'(/showNotice/id/[^s]*?html)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
    return imglist

url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'

browser = webdriver.Firefox()   # 使用Firefox浏览器
browser.set_page_load_timeout(5)
browser.get(url)    # 打开指定网站
browser.maximize_window()   # 最大化浏览器窗口

list = []
link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
list.append(link)

# 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
# 首先点击第一页中的<下一页>按钮
browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
link = getConn(browser.page_source)
list.append(link)

for item in list:
    for link in item:
        print(link)

运行结果为:

爬取标题链接

爬取具体的目标数据

前文已经说了,每一篇公告的网址都是由http://www.gdgpo.gov.cn加上爬到的标题链接组合起来。简单来说,我们可以通过直接输入网址访问每一篇公告。

对于这种情况,我选择使用urllib就足够了。毕竟selenium还需要打开浏览器,相对来说比较麻烦的,而且进入的网页如果有数百上千个,总不好在浏览器打开数百上千个标签页吧!这样做,费时不讨好。

所以,爬取具体的目标数据,我们使用urllib就足够了。

首先,写一个获取网页源码的函数:

# 获取网页源代码
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    html = html.decode('utf8')  # 网页源码有中文,转码匹配
    return html

接下来,我们把翻页和爬取标题链接封装成一个函数,将标题链接存进一个数组返回:

# 获取标题链接
def getConn(html):
    # 利用正则表达式匹配网页内容找到标题地址
    reg = r'(/showNotice/id/[^s]*?html)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
    return imglist

# 使用浏览器翻页抓取标题链接
def getList(url):
    list = []
    browser = webdriver.Firefox()   # 使用Firefox浏览器
    browser.set_page_load_timeout(5)
    browser.get(url)    # 打开指定网站
    browser.maximize_window()   # 最大化浏览器窗口

    link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
    list.append(link)

    # 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
    # 首先点击第一页中的<下一页>按钮
    browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
    link = getConn(browser.page_source)
    list.append(link)

    # 这里点击其余页中的<下一页>按钮
    for i in range(1):  # 写一个循环,翻多少页就循环多少次
        browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()
        link = getConn(browser.page_source)
        list.append(link)
    return list

通过上述函数,获取标题链接,写一个函数,爬取具体数据,存进csv文件:

# 根据标题链接,进入页面爬取所需数据
def getData(url):
    list = getList(url) # 获取标题链接
    str1 = 'http://www.gdgpo.gov.cn'
    for item in list:
        for link in item:
            data = []
            url_link = str1+link    # 拼接网址
            html_link = getHtml(url_link)
            
            # 正则表达式匹配采购项目名称
            xre = re.compile(r'(<span style="font-family)*.[\u4e8c][^s]*?[\uff1a]([^<]+)')
            try:
                data1 = re.search(xre, str(html_link)).group(2) #获取匹配数据
                data.append(data1)
            except:
                pass
            
            # 下列正则表达式是连在一起的,由于过长分成三行
            yre = re.compile(r'(<span style="font-family)*.1[\uff1a]([^<]+)[^;]+[^&]+[^;]+;([^&]+)' # 匹配中标供应商名称
                             r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)'  # 匹配法人代表
                             r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)') # 匹配地址
            try:
                data2 = re.search(yre, str(html_link)).group(3)
                data3 = re.search(yre, str(html_link)).group(4)
                data4 = re.search(yre, str(html_link)).group(5)
                data.append(data2)
                data.append(data3)
                data.append(data4)
            except:
                pass
            
            # 数据已经存进data,用a+模式打开csv文件,可以添加data数据进去,不覆盖原数据
            with open("yang.csv", "a+", newline="") as datacsv:
                # dialect为打开csv文件的方式,默认是excel,delimiter="\t"参数指写入的时候的分隔符
                csvwriter = csv.writer(datacsv, dialect=("excel"))
                # csv文件插入一行数据,把下面列表中的每一项放入一个单元格(可以用循环插入多行)
                csvwriter.writerow(data)

注意:写正则表达式的时候,有些地方是需要匹配中文的,在获取网页源码函数里面,我已经转码为utf8,所以写正则表达式的时候要把中文转成Unicode编码。

另外,这里要多说一句,我的正则表达式真的是渣渣水平,所以写得很长很不好看很不舒服。各位看官要是看不下去了,自己修改一下。[捂脸]

至此,这个函数写完了,调用这个函数就可以把数据爬下来了,可以得到一个csv文件,我们可以用Excel打开,就是表格的形式。

完整版代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@File:yang.py
@Time:2017/8/17 23:20
@Author:lgsen
"""

import urllib.request
import re
from selenium import webdriver
import csv

# 获取网页源代码
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    html = html.decode('utf8')  # 网页源码有中文,转码匹配
    return html

# 获取标题链接
def getConn(html):
    # 利用正则表达式匹配网页内容找到标题地址
    reg = r'(/showNotice/id/[^s]*?html)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
    return imglist

# 使用浏览器翻页抓取标题链接
def getList(url):
    list = []
    browser = webdriver.Firefox()   # 使用Firefox浏览器
    browser.set_page_load_timeout(5)
    browser.get(url)    # 打开指定网站
    browser.maximize_window()   # 最大化浏览器窗口

    link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
    list.append(link)

    # 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
    # 首先点击第一页中的<下一页>按钮
    browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
    link = getConn(browser.page_source)
    list.append(link)

    # 这里点击其余页中的<下一页>按钮
    for i in range(1):  # 写一个循环,翻多少页就循环多少次
        browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()
        link = getConn(browser.page_source)
        list.append(link)
    return list

# 根据标题链接,进入页面爬取所需数据
def getData(url):
    list = getList(url) # 获取标题链接
    str1 = 'http://www.gdgpo.gov.cn'
    for item in list:
        for link in item:
            data = []
            url_link = str1+link    # 拼接网址
            html_link = getHtml(url_link)

            # 正则表达式匹配采购项目名称
            xre = re.compile(r'(<span style="font-family)*.[\u4e8c][^s]*?[\uff1a]([^<]+)')
            try:
                data1 = re.search(xre, str(html_link)).group(2) #获取匹配数据
                data.append(data1)
            except:
                pass

            # 下列正则表达式是连在一起的,由于过长分成三行
            yre = re.compile(r'(<span style="font-family)*.1[\uff1a]([^<]+)[^;]+[^&]+[^;]+;([^&]+)' # 匹配中标供应商名称
                             r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)'  # 匹配法人代表
                             r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)') # 匹配地址
            try:
                data2 = re.search(yre, str(html_link)).group(3)
                data3 = re.search(yre, str(html_link)).group(4)
                data4 = re.search(yre, str(html_link)).group(5)
                data.append(data2)
                data.append(data3)
                data.append(data4)
            except:
                pass

            # 数据已经存进data,用a+模式打开csv文件,可以添加data数据进去,不覆盖原数据
            with open("yang.csv", "a+", newline="") as datacsv:
                # dialect为打开csv文件的方式,默认是excel,delimiter="\t"参数指写入的时候的分隔符
                csvwriter = csv.writer(datacsv, dialect=("excel"))
                # csv文件插入一行数据,把下面列表中的每一项放入一个单元格(可以用循环插入多行)
                csvwriter.writerow(data)

# 主程序
if __name__=="__main__":
    url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'
    getData(url)

四、总结

我不是专门写爬虫的,编程水平也不高,看我的代码就知道了[捂脸]。就是这次爬虫用到了selenium这个包,感觉有点意思,就分享一下过程。

很多东西都是在网络上现查现用,并没有认真去理解。甚至有的代码是复制过来的,变量名都没改,如imglist,大家看看笑笑就好了。就爬虫而言,这次的难度并不高,感觉就新手练手的程度。毕竟,我就是个新手嘛!

最后,想提一下,其实有些公告里,中标供应商是有好几个,并不只有一个,我写的代码只是爬取了第一个,大家有兴趣可以自己去解决这个问题。重在学习嘛!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容