python爬虫之小说章节获取,聊斋志异小说完整版

“写鬼写妖高人一等,刺贪刺虐入骨三分。”
没找到聊斋志异完整版的txt文档,那就把在线阅读的文章抓下来吧。

开发环境

  • python3.7
  • requests模块
  • lxml模块

获取分析

找到聊斋志异的小说网站。
通过查看源码与分析小说每一章的URL链接发现,构成每一章的URL链接其实是通过小说网站URL链接的前缀+每一章的章节属性得到。

#获取章节链接
     for name0 in url2:
         name = name0.xpath("./a/text()")[0]
         urlhref = name0.xpath("./a/@href")[0]
         finurl = "https://www.sbkk88.com" + urlhref

获取到小说每一章的URL链接后分析章节内容网页,发现是静态页面,直接通过requests.get()方法就获取到。

#解析,获取内容
         response2 = requests.get(finurl,headers = headers).content.decode('gbk')
         html = etree.HTML(response2)
         cons = html.xpath("//*[@id='f_article']/p")
         for one in cons:
             essay = []
             conss = one.xpath(".//text()")
             for sentence in conss:
                 if sentence == "一":
                     pass
                 else:
                     essay.append(sentence)

最后将爬取到的内容写入.txt文本,就能得到一本完整的聊斋志异小说!

结果展示:

聊斋志异小说

现在就能阅读整本的聊斋志异白话文小说了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 常常觉得自己现在的生活无聊也很无趣,也常常想摆脱这种无聊无趣的状态,可是生活像是一块磁铁,它是正极我是负极,它紧紧...
    洛文添阅读 235评论 0 0
  • 我一直觉得能力最重要,企图不断提高自己的能力,来完善自己,更是保证自己时刻有离开体制内的能力。但是,我也是一个对自...
    Louise718阅读 131评论 9 14
  • Anna艳娜 2018年4月13日复盘 我的目标管理:智慧·泛学 / 健康·美丽 / 娱乐·休闲 / 家人·朋友 ...
    Anna艳娜阅读 194评论 0 0
  • 记忆中已不知道有多久没来过这里,但又想从这里寻找些什么,寻找一个和我一样有同等思想的人。坐在空气面前,坐在时间面前...
    星空不再阅读 184评论 0 0
  • 是谁家思春的姑娘躲在山间露出一只眼睛? 诱惑着我的意识满山找寻 我发誓要将她亲手抓住 把她装进我的口袋 如果可以,...
    之亦夫阅读 394评论 0 2