前往 >> 【阅读原文】
随着整个互联网的不断发展和数据的累积,传统的搜索引擎已经不能满足对数据的需求。而网络爬虫在网络数据领域是一项很重要的技术,通过对网络数据的提取、筛选、分析使数据变得更加有价值。
网络爬虫又称之为网络蜘蛛,爬虫就像一只蜘蛛一样在这个万维网上寻找自己的猎物。这只蜘蛛按照我们实现预定义好的规则,为我们获取万维网上的信息。
从严格的意义上来说,一个简单的爬虫应用主要包含五个部分:调度器、URL 管理器、网页下载器、网页解析器。
调度器:负责调度其他各个部分之间的工作。
URL 管理器:通过一定的方式来防止重复、循环抓取 URL。
网页下载器:通过网页下载器来下载,将网络内容转换成一个字符串的形式。
网页解析器:将网页下载器下载下来的数据通过第三方的插件进行解析、完成对有效数据的提取。