登录注册写文章

1.2解析网页

1.2解析网页

使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

描述要爬取的东西在哪

data = Soup.select('???')

从标签中获取信息，并装在数据容器中
CSS Selector和XPath都可以表示网页中元素的位置
一般采用get_text方法就可以了

title.get_text()

对于获得标签的属性，采用get 方法

image.get('src‘）

stripped_strings方法，有效解决多对一的标签，
获得一个副标签下的所有子标签的文本,由于内容是成组的，所以列表化

list(cate.stripped_strings)

打开文件有2种方式

fs = open("文件地址"，“r")
print(fs.read())
fs.close

支持相对地址和绝对地址，必须调用close()函数，否则内存泄漏

with open("文件地址","r") as fs:
      print(fs.read())

最后编辑于：2017.12.03 06:06:13

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python实战视频1.2：解析网页中的元素
（一）任务内容：将从以下网页中筛选出评分大于3的文章，并显示出文章题目及标签。（二）最终成果展示（三）我的代码...
魏魏魏_1500阅读 482评论 0赞 0
python实战计划第一周作业：1.2解析网页
实现了用python代码读取本地网页的并解析出其中的内容实现代码总结： nth-of-type（2）父元素的第...
chudi1245阅读 308评论 0赞 0
记录下BS4的基础使用方法
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实...
LitOrange阅读 5,314评论 0赞 4
Python爬虫之Beautiful Soup用法
关于bs4，官方文档的介绍已经非常详细了,传送：Beautifulsoup 4官方文档,这里我把它组织成自己已经消...
徐薇薇阅读 5,462评论 0赞 1
1.3 真实的网页解析
HTTP1.1中Request方法7种get post head put options connect tra...
doubleyou1001阅读 566评论 0赞 0

赞1赞

赞赏

手机看全文