爬虫简单实现

server.js

var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");

http.get("http://www.ss.pku.edu.cn/index.php/newscenter/news",function(res){
    var html="";//保存抓取的数据
    var news=[];//保存解析后的数据
    res.setEncoding("utf-8");

    //获取抓取的数据
    res.on('data',function(chunk){
        html+=chunk;
    });
    //监听内容获取完毕
    res.on('end',function(){
        var $=cheerio.load(html);
        $('#info-list-ul li').each(function(index,item){
            console.log(index+":"+item)
            var news_item={
                title:$(".info-title",this).text(),//获取新闻的标题业
                time:$('.time',this).text(),//获取新闻的事件
                link:'http://www.sspku.edu.cn'+$('a',this).attr('href')//获取新闻详情页连接
            };
            news.push(news_item);
        });
        saveData('data/data.json',news);
        readData('data/data.json');
    })
}).on('error',function(err){
    console.log(err)
});

function saveData(path,news){

    fs.writeFile(path,JSON.stringify(news,null,4),function(err){
        if(err){
            console.log(err);
        } else {
            console.log('Data saved');
        }
    });
}
function readData(path){
    fs.readFile(path,{encoding:'utf-8'},function(err,bytesRead){
        if(err){
            console.log(err);
        } else {
            var data=JSON.parse(bytesRead);
            console.log(data);
            console.log('read data success');
        }
    });
}

httpGet.js

"use strict"
var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");

var length=0;
var links=[];//存储发件人
var news=[];//存储新闻内容
function sendHttps(slinks){
        links=slinks;
        length=links.length;
        console.log(length);
    for(var i=0;i<length;i++)
        send(links[0],0);
}
function send(link,i){
    if(i>=length)  { saveData('images/content.json',news); return;}
    http.get(link,function(res){
        var html="";//保存抓取的数据
        res.setEncoding("utf-8");
        //获取抓取的数据
        res.on('data',function(chunk){
            html+=chunk;
        });
        //监听内容获取完毕
        res.on('end',function(){
            var $=cheerio.load(html);
            //取得图片和文章段落内容
            //{type:title,content,content}
            var content={};
            var sections=[];
            $(".article-content p").each(function(index,item){
                var type='';
                if($(this).find('img').length>0){//是图片
                    type="img";
                    var imgPath="http://www.ss.pku.edu.cn/"+$(this).find('img').attr('src');
                    var localPath="images/"+imgPath.substring(imgPath.lastIndexOf('/'));
                    saveImage(imgPath,localPath);
                    sections.push({'type':type,'content':localPath});

                } else if($(this).children('strong').length>0){//是标题
                    type="title";
                    sections.push({'type':type,'content':$(this).children('strong').text()});
                } else {
                    type="content";
                    sections.push({'type':type,'content':$(this).text()});
                }
            });
            news.push({'link':link,sections:sections});//保存文章内容
            $('a[title="供稿"]').each(function(index,item){
                var link=$(this).text().trim().substring(3);
                console.log(link);//取得发稿人
            //  gonggaos.push(link);
            });
            saveData('images/content.json',news);
        //  send(links[i+1],i+1);
        });
    });
}
function saveData(path,news){

    fs.writeFile(path,JSON.stringify(news,null,4),function(err){
        if(err){
            console.log(err);
        } else {
            console.log('Data saved');
        }
    });
}
function saveImage(imgPath,localPath){
    http.get(imgPath, function(res) {
        var imgData = "";
        res.setEncoding("binary"); //一定要设置response的编码为binary否则会下载下来的图片打不开
        res.on("data", function (chunk) {
            imgData += chunk;
        });
        res.on("end", function () {
            fs.writeFile(localPath, imgData, "binary", function (err) {
                if (err) {
                    console.log("down fail");
                }
                console.log("down success");
            });
        });
    });
}
exports.sendHttps=sendHttps;

gonggao.js

"use strict"
var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");
var httpGet=require("./httpGet");

var news_link=[];//保存解析后的数据
function getLinks(link){
    http.get(link,function(res){
        var html="";//保存抓取的数据
        res.setEncoding("utf-8");
        //获取抓取的数据
        res.on('data',function(chunk){
            html+=chunk;
        });
        //监听内容获取完毕
        res.on('end',function(){
            var $=cheerio.load(html);
            $('#info-list-ul li').each(function(index,item){
                var link='http://www.ss.pku.edu.cn'+$('a',this).attr('href');
                news_link.push(encodeURI(link));
            });
            if($('a[title="下页"]').length==0){
                httpGet.sendHttps(news_link);//获取所有的供稿单位
            } else {
                getLinks('http://www.ss.pku.edu.cn' + $('a[title="下页"]').attr('href'));
                console.log( 'http://www.ss.pku.edu.cn' + $('a[title="下页"]').attr('href'));
            }
        })
    }).on('error',function(err){
        console.log(err)
    });
}
//请求首页
getLinks("http://www.ss.pku.edu.cn/index.php/newscenter/news");

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容