一、什么是爬虫,爬虫能做什么
爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。
爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值。也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序。以下行为都可以用爬虫实现:
咨询报告(咨询服务行业)
抢票神器
投票神器
预测(股市预测、票房预测)
国民情感分析
社交关系网络
政府部门舆情监控
二、爬虫基本原理
爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序。
当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入https://www.baidu.com,简单来说这段过程发生了以下四个步骤:
查找域名对应的IP地址,浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址
向IP对应的服务器发送请求。
服务器响应请求,发回网页内容。
浏览器显示网页内容。
网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。可看流程图
流程图
结尾
网络爬虫入门(一)之初识爬虫就介绍到这里,下一篇文章将会介绍爬虫的基本流程
从事任何职业都是一个工具,不是一首歌、不是一个节目,而是态度。
可加公众号【数据蛙DataFrog】,我们一起学习交流