“写鬼写妖高人一等,刺贪刺虐入骨三分。”
没找到聊斋志异完整版的txt文档,那就把在线阅读的文章抓下来吧。
开发环境
- python3.7
- requests模块
- lxml模块
获取分析
找到聊斋志异的小说网站。
通过查看源码与分析小说每一章的URL链接发现,构成每一章的URL链接其实是通过小说网站URL链接的前缀+每一章的章节属性得到。
#获取章节链接
for name0 in url2:
name = name0.xpath("./a/text()")[0]
urlhref = name0.xpath("./a/@href")[0]
finurl = "https://www.sbkk88.com" + urlhref
获取到小说每一章的URL链接后分析章节内容网页,发现是静态页面,直接通过requests.get()方法就获取到。
#解析,获取内容
response2 = requests.get(finurl,headers = headers).content.decode('gbk')
html = etree.HTML(response2)
cons = html.xpath("//*[@id='f_article']/p")
for one in cons:
essay = []
conss = one.xpath(".//text()")
for sentence in conss:
if sentence == "一":
pass
else:
essay.append(sentence)
最后将爬取到的内容写入.txt文本,就能得到一本完整的聊斋志异小说!
结果展示:
现在就能阅读整本的聊斋志异白话文小说了。