网页爬虫需要获取网页特定的HTML标签内容和内容中的资源文件,分解下来动作有:
- 拿网页HTML
- 抓标签(通过 id、标签名、name、class、自定义attr等条件匹配)
- 下载资源
将文本内容和资源内容的获取分离,先获取文本,最后集中处理资源文件,在修改和实现UI时会方便。资源一般会用到线程下载,因为单线程会使用户界面进入假死状态,下载是提供进度条会是一个友好的交互选择。
网页爬虫需要获取网页特定的HTML标签内容和内容中的资源文件,分解下来动作有:
- 拿网页HTML
- 抓标签(通过 id、标签名、name、class、自定义attr等条件匹配)
- 下载资源
将文本内容和资源内容的获取分离,先获取文本,最后集中处理资源文件,在修改和实现UI时会方便。资源一般会用到线程下载,因为单线程会使用户界面进入假死状态,下载是提供进度条会是一个友好的交互选择。