爬虫

1、爬取网页如果不是utf8编码,通过mahonia包来解决。
2、爬取数据通过goquery包。
3、通过chrome的检查功能定位到具体html标签上,右键copy-->copy selector,获取到想爬取数据的选择器路径。
4、重点用法:
dec := mahonia.NewDecoder("GB2312")
rd := dec.NewReader(resp.Body)
doc, _ := goquery.NewDocumentFromReader(rd)
doc.Find("tr.trclass").Each(func(i int, s *goquery.Selection) {
...
}
5、有的网页查看源代码会发现所需数据是通过ajax请求或js生成的,这种情况可以通过network的xhr功能,查看网页请求接口,直接模拟请求接口获取所需的json数据即可。
6、参考blog:http://blog.csdn.net/hotqin888/article/details/52194839

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容