lxml.etree之tbody坑

学习lxml和xpath

以上资料借鉴而已


今天写个简单的静态的爬虫爬取IP ip网址

以下我们观察一下网页HTML

1504363816(1).png
//*[@id="gallery"]/div[2]/div[1]/div[2]/div[2]/table/tbody/tr[1]/td[2]

这是我用浏览器自带工具提取的xpath大家应该发现了其中带有tobody,做过爬虫的大家都知道,一般tobody是浏览器自动产生的,一般情况要去掉,为此我耽误三个小时调试,一直匹配不到数据,后来我打印了request反应的网页源码,里面就是有tobody的


爬取的截图.png

尼玛

请别拦着我,我要砍死这个网页的程序猿!!!!(你们怎么不拦我…………)
后来改了一下匹配的格式就爽了

代码.png

代码的路,坑坑不绝,坑坑不休------------
好了,以上就写这么多了,当作笔记。
对了,最后放个养眼的图片

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容