1、爬取网页如果不是utf8编码,通过mahonia包来解决。
2、爬取数据通过goquery包。
3、通过chrome的检查功能定位到具体html标签上,右键copy-->copy selector,获取到想爬取数据的选择器路径。
4、重点用法:
dec := mahonia.NewDecoder("GB2312")
rd := dec.NewReader(resp.Body)
doc, _ := goquery.NewDocumentFromReader(rd)
doc.Find("tr.trclass").Each(func(i int, s *goquery.Selection) {
...
}
5、有的网页查看源代码会发现所需数据是通过ajax请求或js生成的,这种情况可以通过network的xhr功能,查看网页请求接口,直接模拟请求接口获取所需的json数据即可。
6、参考blog:http://blog.csdn.net/hotqin888/article/details/52194839
爬虫
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
- 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序...
- 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...