利用phpQuery开发爬虫

背景

近日,女王大人因工作需要,命令我将著名网站内容备份下来,作为学习研究之用。临危受命,于是晚上23点40分开始研究,终于于00点20分完成。不到一个小时,效率尚可,现将经验总结如下。

学习资料

https://github.com/TobiaszCudnik/phpquery phpQuery官方教程
http://www.fkphp.com/?p=49 phpQuery中文手册

过程

第一步 分析来源网页

首先,找到列表页

http://sousuo.gov.cn/column/30469/0.htm
http://sousuo.gov.cn/column/30469/1.htm
……
http://sousuo.gov.cn/column/30469/56.htm

需要爬取的所有列表页url地址比较规则,所以先将这些地址存储到list_page.txt中,一行一个。

然后,分析列表页的内容

列表页是静态的html地址,没有加密和用jQuery动态渲染,所以不用分析接口和解析js了。

    <?php
// 你需要先把phpQuery的代码包下载到本地phpQuery目录中;
require('phpQuery/phpQuery/phpQuery.php');

$content = file_get_contents("list_page.txt");
$arr = explode("\n", $content);
foreach( $arr as $n=>$one) {
    if (strlen($one) ==0) continue;
        phpQuery::newDocumentFile($one);
        foreach( pq(".listTxt a") as $m=>$a ) {
                $href = pq($a)->attr("href");
                if (strlen($href) > 0 ) {
                        $title = pq($a)->html();
                        file_put_contents("artile_list.txt", "{$href};;{$title};;{$n};;{$m}\n", FILE_APPEND);
                }
        }
}

代码过程:

  • 由于标题列表在listTxt样式类下的a列表,所以用phpQuery匹配器.listTxt a来表示。
  • 匹配到的a是多个,所以用foreach来遍历。
  • $a是DOM对象,所以需要pq($a)来使用。
  • 取属性用attr方法。
  • 取标签内容用html方法。这样就获取到了标题和跳转链接。保存到article_list.txt备用。

然后,分析文章正文

获取一个article_list.txt中的地址,分析内容结构,发现正文都在.article样式下,所以直接用匹配器.article来获取。

$content = file_get_contents("artile_list.txt");
$arr = explode("\n", $content);
foreach( $arr as $one) {
        list($href, $title, $n, $m, $btn) = explode(";;", $one);
        phpQuery::newDocumentFile($href);
        $file = "articles/{$n}-{$m}-{$title}.txt";
        $html = trim(pq(".article")->text());
        file_put_contents($file, $html );
}

代码过程:

  • $n表示页数,$m表示第几篇文章;用来调试;
  • 将爬取的内容放到本地article目录下,按找页+序号+标题的方式进行命名,方便调试;
    整个过程就完了。

最后,优化代码

我们还要几个问题:

  • 并非每篇文章都用.article能完全匹配到,其中有一半的badcase经过分析,需要用table[width='674']table[width='650']来匹配。
  • 有的文章抓取失败了,需要找出来,进行断点调试,所以增加$btn,支持跳过某些无法抓取的文章。
  • 判断是否标题抓取成功过了,这种就跳过;
  • foreach最后可以break,在错误处停下,以快速调试单篇文章的抓取。
  • 如果抓取的内容不正常,trim掉空格之后为空,则不要存入文件,等待后续修复之后继续重抓。
    整个代码如下:
<?php

require('phpQuery/phpQuery/phpQuery.php');

$content = file_get_contents("list_page.txt");
$arr = explode("\n", $content);
foreach( $arr as $n=>$one) {
    if (strlen($one) ==0) continue;
        phpQuery::newDocumentFile($one);
        foreach( pq(".listTxt a") as $m=>$a ) {
                $href = pq($a)->attr("href");
                if (strlen($href) > 0 ) {
                        $title = pq($a)->html();
                        file_put_contents("artile_list.txt", "{$href};;{$title};;{$n};;{$m}\n", FILE_APPEND);
                }
        }
}

$content = file_get_contents("artile_list.txt");
$arr = explode("\n", $content);
foreach( $arr as $one) {
    if (strlen($one) ==0) continue;
        //echo $one . "\n";
        list($href, $title, $n, $m, $btn) = explode(";;", $one);
        if ($btn == 1 ) {
                continue;
        }

        $file = "articles/{$n}-{$m}-{$title}.txt";
        if (is_file($file) && strlen(file_get_contents($file)) > 0) {
                //echo "exists.{$href}\n";
                continue;
        }

        phpQuery::newDocumentFile($href);
        $html = trim(pq(".article")->text());
        if (strlen($html) == 0 ) {
                $html = trim(pq("#UCAP-CONTENT")->text());
        }
        if (strlen($html) == 0 ) {
                $html = trim(pq("table[width='674']")->text());
        }
        if (strlen($html) == 0 ) {
                $html = trim(pq("table[width='650']")->text());
        }
        if (strlen($html) > 0 ) {
                file_put_contents($file, $html );
        } else {
                echo "get failed.{$href}\n";
                exit;
        }
}

成品效果:


本地文件结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354