1. 爬虫 ---- 小公司数据采集之必备
node 写爬虫的优势
- 你只需要一个前端工程师 (最重要的一点)
- 你不需要重新学习一门语言
- node 的异步很适合处理IO密集型应用场景
- node 有很多npm包帮助你更加轻松的完成爬虫业务
爬虫的基本操作
- 怎么去爬取网页的内容(爬虫的hello world)
环境搭建 (具体搭建方法请自行google)
node 建议安装 8.4 以上 支持async await --- 贼爽
chrome 浏览器
vscode 贼好用的编辑器
postman 模拟http请求
charles 抓包工具 (app应用的http请求抓取)
爬虫之hello world
mkdir spider //创建spider目录
cd spider //切到spider目录下
npm init //用npm初始化项目 会产生一个package.json文件
npm i cheerio node-fetch --save // 安装依赖
touch index.js //创建一个index.js文件
vim index.js //用vim 进行编辑 按 I 进入编辑模式
进入编辑模式后
输入代码:
console.log('hello word --- 之爬虫');
const fetch = require('node-fetch');
fetch('https://www.baidu.com',{
method:'GET'
}).then(async res=>{
let html = await res.text(); //url是html
// let json = await res.json();//url 是json文件
console.log(html);
})
按ESC 退出编辑模式 按 SHIFT + : 输入wq! 回车 保存代码退出vim编辑器
然后用node index.js 运行代码.在终端你就可以看到百度的源码HTML 的文本了
爬虫就是这么简单