登录注册写文章

lxml.etree之tbody坑

随风而去_c0e8

lxml.etree之tbody坑

学习lxml和xpath

以上资料借鉴而已

今天写个简单的静态的爬虫爬取IP ip网址

以下我们观察一下网页HTML

1504363816(1).png

//*[@id="gallery"]/div[2]/div[1]/div[2]/div[2]/table/tbody/tr[1]/td[2]

这是我用浏览器自带工具提取的xpath大家应该发现了其中带有tobody,做过爬虫的大家都知道，一般tobody是浏览器自动产生的，一般情况要去掉，为此我耽误三个小时调试，一直匹配不到数据，后来我打印了request反应的网页源码，里面就是有tobody的

爬取的截图.png

尼玛

请别拦着我，我要砍死这个网页的程序猿！！！！（你们怎么不拦我…………）
后来改了一下匹配的格式就爽了

代码.png

代码的路，坑坑不绝，坑坑不休------------
好了，以上就写这么多了，当作笔记。
对了，最后放个养眼的图片

最后编辑于：2017.12.10 05:44:46

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 12,825评论 4赞 46
python网络爬虫之Scrapy
本文分享的大体框架包含以下三部分（1）首先介绍html网页，用来解析html网页的工具xpath（2）介绍pyt...
不忘初心c阅读 2,625评论 0赞 14
lxml 学习笔记
人生苦短，我用Python。起初，这篇文章是打算来写 XPath 的，可是后来一想，我需要的仅是 XPath 的...
Moscow1147阅读 20,892评论 1赞 14
python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,287评论 3赞 44
银州
白云之上泛一轻舟独行在远山脚下辽河的支脉长流流经少年扯破的慌流向岁月难归的忧何时何地平添了一缕愁是我...
纳兰小白阅读 348评论 2赞 5

赞1赞

赞赏

手机看全文