爬虫

1、爬取网页如果不是utf8编码，通过mahonia包来解决。
2、爬取数据通过goquery包。
3、通过chrome的检查功能定位到具体html标签上，右键copy-->copy selector，获取到想爬取数据的选择器路径。
4、重点用法：
dec := mahonia.NewDecoder("GB2312")
rd := dec.NewReader(resp.Body)
doc, _ := goquery.NewDocumentFromReader(rd)
doc.Find("tr.trclass").Each(func(i int, s *goquery.Selection) {
...
}
5、有的网页查看源代码会发现所需数据是通过ajax请求或js生成的，这种情况可以通过network的xhr功能，查看网页请求接口，直接模拟请求接口获取所需的json数据即可。
6、参考blog：http://blog.csdn.net/hotqin888/article/details/52194839

最后编辑于：2017.12.06 06:11:21

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

服务器爬虫
你爬了吗？要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一种自动获取网...
Albert新荣阅读 2,248评论 0赞 8
33款可用来抓数据的开源爬虫软件工具
33款可用来抓数据的开源爬虫软件工具要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即...
visiontry阅读 7,434评论 1赞 99
33款开源爬虫软件工具收藏！(你也试试）
要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一种自动获取网页内容的程序...
评评分分阅读 8,045评论 2赞 121
爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,108评论 45赞 523
坏事变好事
擅长把坏事变成好事是种能力，心态很重要。这就是修习带来的力量。
乌金灯阅读 452评论 0赞 0

赞1赞

赞赏

手机看全文