无聊打算继续之前的爬虫工作
简单介绍基本的原理
- 浏览器驱动(chrome、PhantomJS)
- 浏览器自动化插件(selenium-webdriver)
- 获取和操作页面数据(cheerio)
需注意,我的node版本为7.10.0,版本太低可能会出现问题。
start
简单的先来一个获取百度首页数据的例子
require('chromedriver'); //chrome浏览器驱动
let webdriver = require('selenium-webdriver'); //浏览器自动操作
let cheerio = require('cheerio'); //获取页面数据
let fs = require('fs');
let driver = new webdriver.Builder().forBrowser('chrome').build()
driver.get('http://www.baidu.com')
driver.getPageSource().then((val) => {
const $ = cheerio.load(val);
let result = $('#u1').text()
fs.writeFile('mes.txt', result, (err) => {
if(err) throw err
console.log('is saved')
})//将数据写进mes.txt文件中
})
package.json文件如下
{
"name": "tuku",
"engines": {
"node": "7.10.0"
},
"author": "silentsvv",
"license": "ISC",
"devDependencies": {
"cheerio": "^0.22.0",
"chromedriver": "^2.29.0",
"selenium-webdriver": "^3.4.0",
}
}
接下来输入指令
我们就成功获取了相关信息!!!