Python09,下载全书网小说,保存到txt格式文件。成功运行

今天2017年2月2日。我又运行了一遍这个代码,发现成功将小说下载到电脑本地,保存为txt格式。

很不错!!!!

Paste_Image.png

-------------分割线------------------
全书网的小说,我编写好了代码,两个函数,我都经过检验了,可以运行。但是,由于ip被限制了,整个函数我编写好之后,没办法运行,操蛋啊!


#!/usr/bin/env python
#-*- coding: utf-8 -*-

#目前代码都没办法调试,因为代理ip或者我的ip都被屏蔽了,总显示超时链接。未完成!!!!
#看的是别人家的教程,用open函数打开文档保存的,不知道我自己能一次性调试成功否?

url = 'http://www.quanshu.net/book/16/16093/'

import requests
from bs4 import BeautifulSoup
import time
headers = {
    'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36 QQBrowser/4.1.4132.400'
}

proxies = {"http": "117.90.7.24:9000"}
all_link=[]
def get_links(url):
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.content,'lxml')

    links=soup.select('#chapter > div.chapterSo > div.chapterNum > ul > div.clearfix.dirconone > li > a')
    titles=soup.select('#chapter > div.chapterSo > div.chapterNum > ul > div.clearfix.dirconone > li > a')

    for link,title in zip(links,titles):
        data={
            'link':'http://www.quanshu.net/book/16/16093/'+link.get('href'),
            'title': title.get_text()
        }

        #print(data)
        all_link.append(data)
        #成功将links和titles放入到字典里面。
    #print(all_link)
    return all_link #返回的是一个列表。列表中的元素是字典。

def get_info(url):
    wb_data = requests.get(url, headers=headers)
    soup = BeautifulSoup(wb_data.content, 'lxml')

    content = soup.select('.mainContenr')

    #print(content)
    return content


#get_info('http://www.quanshu.net/book/16/16093/5925536.html')

for i in get_links(url): #上面的代码都运行成功了,这个for循环还没有验证好,等解决了ip问题之后再说吧。真是操蛋。
    content = get_info(i['link'])
    content2 = content.replace('    ','')
    time.sleep(5)
    print(content2)
    with open(i['title']+'.txt','w') as f:
        f.write(content2)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,665评论 25 708
  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 6,571评论 0 17
  • 块级元素和行内元素分别有哪些?动手测试并列出4条以上的特性区别 Block level(块级元素)div h1 ...
    Klart阅读 145评论 0 0
  • 我是一名程序员,在日常工作开发中,经常会听这么一句话:“在开发之前,看看是否已有的轮子,不要重复造轮子”。那这里所...
    斜杠时光阅读 395评论 0 0
  • “站在巨人的肩膀上,压住他们的不能只是脂肪” “旅行不必在乎目的地,最怕你不知道这是哪” “好看的皮囊千篇一律,有...
    SailorMoon_X阅读 131评论 0 0