2019-01-25豆瓣书评爬取

https://www.douban.com/robots.txt

robots.txt 相应网站的爬虫协议，注意看有没有不让抓取的网页

import requests
from bs4 import BeautifulSoup
r =requests.get("https://book.douban.com/subject/4923621/")
soup =BeautifulSoup(r.text,"lxml")
pattern =soup.find_all("span","short")
for item in pattern:
print(item.string)

导入requests,BeautifulSoup模块，requests.get抓取网页，BeautifulSoup(r.text,"lxml")解析成标签tag，find_all转换成字典，然后打印item.string字符串

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

爬虫介绍
一、爬虫介绍：什么是爬虫？爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。哪些语言可以...
SlashBoyMr_wang阅读 950评论 0赞 1
Python爬虫学习－爬取大规模数据(10w级）
编译环境：python v3.5.0, mac osx 10.11.4 python爬虫基础知识: Python...
掷骰子的求阅读 16,711评论 11赞 101
启动hiveserver2失败问题
问题：使用 hiveserver2 start启动，beeline连接失败，命令：!connect jdbc:h...
薇薇一笑vv阅读 4,353评论 0赞 0

赞1赞

赞赏

手机看全文