Python采集站长工具关键词库

建立关键词库是SEO重要工作之一。如何获得更多关键词?通常是找到一批母词,用它们作为词根,使用拓词工具拓展出更多长尾关键词。

那么,词根从哪里来呢?比较好的来源之一就是竞争对手的关键词库。今天就来谈一谈如何使用Python采集竞争对手站长工具(chinaz.com)关键词库。

经测试,在不登陆站长工具网站的情况下,只能最多访问前10页的关键词列表。登陆状态下则最多访问前57页关键词列表。想要访问更多,则需要开通VIP。

目前没有开通VIP,所以就只能采集登录状态下前57页关键词,一共1140个有百度指数的关键词。示例代码如下:

import re,time,requests,random
import browsercookie

class ZhanZhang(object):
    def __init__(self):
        self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
        self.domains = [domain.rstrip() for domain in open('domains.txt',encoding='utf-8-sig')]

    def get_cookies(self):
        cookies = browsercookie.chrome()
        cookies = [cookie for cookie in cookies if 'chinaz.com' in str(cookie)]
        cookies = requests.utils.dict_from_cookiejar(cookies)
        return cookies

    def curl(self,url,retries = 3,num = 1):
        cookies = self.get_cookies()
        try:
            response = requests.get(url, cookies = cookies, headers = self.headers, timeout=5)
            response.encoding = 'utf-8'
            html = response.text
        except:
            html = None
            if retries > 0:
                print('请求失败,重试第%s次' % num)
                return self.curl(url, retries - 1, num + 1)
        return html

    def page(self,host):
        html = self.curl('http://rank.chinaz.com/?host=%s' % host)
        time.sleep(random.uniform(1,2))
        data = re.search('共(\d+?)页',html)
        if data:
            num = data.group(1)
            if int(num) > 57:
                num = 57
        else:
            num = 1
        page = ['http://rank.chinaz.com/%s-0--%s' % (host,i) for i in range(1,int(num)+1)]
        return page

    def words(self,host):
        words = []
        pages = self.page(host)
        for url in pages:
            html = self.curl(url)
            time.sleep(random.uniform(1,3))
            kws = re.findall('<li class="ReListCent ReLists bor-b1s clearfix">([\s\S]*?)</div></li>', html)
            for kw in kws:
                keys = re.findall('class="ellipsis block">(.*?)</a><div class="folwc"[\s\S]*?<div class="w8-0"><a href=".*?" target="_blank">(.*?)</a></div>',kw)
                words.append(keys)
        return words

    @property
    def save_file(self):
        with open('words.txt', 'w') as f:
            for host in self.domains:
                print('++++++开始采集%s的关键词++++++' % host)
                words = self.words(host)
                for line in words:
                    word,index = line[0]
                    data ='%s\t%s' % (word,index)
                    data += '\n'
                    f.write(data)

if __name__ == '__main__':
    p = ZhanZhang()
    p.save_file

代码运行需要安装requests库和browsercookie库,requests库用来处理请求,browsercookie库用来处理登陆后的cookie。待抓取的域名放在domains.txt文件中,一行一个,不带HTTP。脚本运行完毕,最终数据会写入words.txt文件中,包括关键词及整体百度指数。

这里以采集站长工具为例,同样的还可以采集其他类似网站,比如爱站网、5118等,多个网站综合起来,采集的关键词将更多更全一些。

PS:关注公众号后台回复关键词【站长工具】即可获得这份代码,不明白的地方可私信我。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容