【Python爬虫】手机号网段爬虫

整体爬虫逻辑：

1.获取省份和城市的定位，然后定位出各个城市和相对应的url
2.获取到 130 xx号段（共317个）中的xxx个

3.获取最终的号段号码

先贴上源码

#抓取省份及城市
import requests
from lxml import etree
url='http://www.51hao.cc/'
req=requests.get(url)
req.encoding='gb2312'
html=req.text
select=etree.HTML(html)
infos=select.xpath('//div[@class="fkce"]/div[@class="fkt"][position()>1]')
#print(len(infos))  #核对下省的数量是否一致
for info in infos:
    #定位省的地址
    province=info.xpath('div[@class="fkbj"]/p/a/text()')[0]
    #print(province)
    #定位城市
    citys=info.xpath('div[@class="fklk"]/p/a/text()')
    #print(citys)
    #城市的url
    city_urls = info.xpath('div[@class="fklk"]/p/a/@href')
    #print(province,citys,city_urls)
    city_infos = zip(citys, city_urls)  #zip函数接受任意多个（包括0个和1个）序列作为参数，返回一个tuple列表。
    #print(city_infos)
    for city_info in city_infos:
        city=city_info[0]
        #print(city)
        city_url=city_info[1]
        #print(province,city,city_url)


        url2 = 'http://www.51hao.cc/city/beijing/beijing.php'
        req2 = requests.get(url2)
        req2.encoding = 'gb2312'
        html2 = req2.text
        selector2 = etree.HTML(html2)
        infos = selector2.xpath('//div[@class="all"]//div[@class="num_bg"]')
        num = len(infos)
        # print(num)   #打印出共有多少个
        for i in range(num):
            first_3 = selector2.xpath('//div[@class="all"]/div[%s]/div[1]/span[@class="nums"]/text()' % str(i + 2))[
                0]  # 号码段前三位
            # print(first_3)
            types = selector2.xpath('//div[@class="all"]/div[%s]/div[1]/text()' % str(i + 2))[0]  # xx号段 (共xxx个)
            # print(types)
            mobiles = selector2.xpath('//div[@class="all"]/ul[%s]/li/a/text()' % str(i + 1))  # 号码段内的号码
            # print(mobiles)
            type1 = types.split(" ")[0]  # 获取xx号段 (共xxx个）中xx号段
            # print(type1)
            total = types.split(' ')[1].replace('(共', '').replace('个)', '')  # 获取(共xxx个)中的xxx
            # print(total)
            # print(i+2,first_3,type1,total,mobiles)
            for mobile in mobiles:
                #print(i + 2, first_3, type1, total, mobile)
                print(province, city, first_3, type1, total, mobile)

爬虫结果

关于定位的问题：

 1.   infos=select.xpath('//div[@class="fkce"]/div[@class="fkt"][position()>1]')

第一个div[class="fkce"]下可以找到省份和城市，可是div[@class="fkce"]下第一个div[@class="fkt"]下的第一个为各省市号段的那一列，要过滤掉第一个div，这里用到position()过滤第一div内的内容。

2.   city_infos = zip(citys, city_urls) #把city是，和city_urls返回一个元祖，再去取里面的值

zip函数接受任意多个（包括0个和1个）序列作为参数，返回一个tuple列表。只能在循环中打印出来。在循环中元祖中选出城市与相对应的url打印出来

城市的获取

在循环中元祖中选出城市与相对应的url打印出来

3. infos=selector.xpath('//div[@class="all"]//div[@class="num_bg"]') #在这个范围内找到     获取到 130 xx号段 （共317个）中的xxx个

WX20170904-170305@2x.png

4.   first_3 = selector.xpath('//div[@class="all"]/div[%s]/div[1]/span[@class="nums"]/text()'%str(i+2))[0]    #号码段前三位

用到了【】方法

div[%s] %str(i+2))过滤第一个

5.    types = selector.xpath('//div[@class="all"]/div[%s]/div[1]/text()' % str(i + 2))[0] #xx号段 (共xxx个)
      mobiles = selector.xpath('//div[@class="all"]/ul[%s]/li/a/text()' % str(i + 1)) #号码段内的号码

6.   type1=types.split(" ")[0] #获取xx号段 (共xxx个）中xx号段
     total = types.split(' ')[1].replace('(共', '').replace('个)', '')  #获取(共xxx个)中的xxx

最后把获取的连接到一起打印出来

 for mobile in mobiles:
        print(province, city, first_3, type1, total, mobile)

最后编辑于：2017.12.10 06:00:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,898评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,401评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,058评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,539评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,382评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,319评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,706评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,370评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,664评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,715评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,476评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,326评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,730评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,003评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,275评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,683评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,877评论 2赞 335

【Python爬虫】手机号网段爬虫

推荐阅读更多精彩内容