在当当和亚马逊中搜书并输出最低价格

这两天想买几本关于Python的书，自然是到各网上书店里找，比较哪家最便宜的下手了。可是发现很麻烦，需要在每个网站里每本书都要搜一遍，搜完还得计个总价格，看看谁家便宜。所以想到了用Python的爬虫技术，做一个工具，到各网上书店里找书并计算总价。

京东的搜索很烂，结果是一大堆无关的东西，未找到好方法解决，只好先放弃。目前实现了当当网和亚马逊搜书并找出最低价和各书的地址，将其保存在results.txt中，并显示最低总价。

最好是做成一个web页面，可以接受输入书名，并且在页面中直观的显示各网站书的总价，还要能一键放入购物书。

代码如下：

# -*- coding:utf-8 -*-
"""在当当和亚马逊中找书，输出最低价格"""
import requests, datetime, threading
from urllib.request import quote
from lxml import etree

books = ('流畅的python', 'Python编程快速上手 让繁琐工作自动化', '编写高质量Python代码的59个有效方法')


def d(book, book_ifos):
    """当当网"""
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3'}
    d_url = 'http://search.dangdang.com/?key={}&act=input&sort_type=sort_xlowprice_asc#J_tab'
    search_url = d_url.format(quote(book, encoding='gbk'))

    r = requests.get(search_url, headers=headers)
    root = etree.HTML(r.text)
    results = root.xpath('//li[starts-with(@class,"line")]')
    """若是有results，则找到书了"""
    if results:
        book_sub = book.lower().split(' ')
        for result in results:
            title = result.xpath('a')[0].attrib['title'].strip()
            """判断书名中是否含有旧书，有则跳过"""
            if '旧书' in title:
                continue
            """书名按空格折分，并在title中匹配，全匹配才是找对书"""
            hit = False
            for s in book_sub:
                if s in title.lower():
                    hit = True
                else:
                    hit = False
                    continue
            """取得价格和地址，添加到book_ifos中"""
            if hit:
                a = result.xpath('p/span[@class="search_now_price"]')
                if len(a) != 0:
                    price = float(a[0].text[1:])
                else:
                    continue
                url = result.xpath('a')[0].attrib['href']
                book_ifos['dangdang'].append({'title': title, 'price': price, 'url': url})
                break
    else:
        book_ifos['dangdang'].append({'title': book, 'price': 0, 'url': ''})


def z(book, book_ifos):
    """亚马逊"""
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3'}
    z_url = 'https://www.amazon.cn/s/ref=nb_sb_ss_ime_c_1_5?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&url=search-alias%3Daps&field-keywords={}'

    search_url = z_url.format(book)
    r = requests.get(search_url, headers=headers)
    r.encoding = 'utf-8'
    root = etree.HTML(r.text)
    results = root.xpath('//li[starts-with(@id,"result_")]')
    """若是有results，则找到书了"""
    if results:
        book_sub = book.lower().split(' ')
        book_ifo = []
        for result in results:
            a = result.xpath('div/div/div/a/h2/..')[0]
            title = a.attrib['title'].strip()
            """书名按空格折分，并在title中匹配，全匹配才是找对书"""
            hit = False
            for s in book_sub:
                if s in title.lower():
                    hit = True
                else:
                    hit = False
                    continue
            if hit:
                price_str = result.xpath('div/div/a/span')[1].text
                """
                获取到的价格为：￥222.222，所以只提取数字部分，并转为float
                若是电子书，则取不到价格，跳过
                """
                if price_str:
                    price = float(price_str[1:])
                else:
                    continue
                url = a.attrib['href']
                """获取最低价格"""
                if len(book_ifo) == 0:
                    book_ifo = [title, price, url]
                elif book_ifo[1] > price:
                    book_ifo = [title, price, url]
        book_ifos['Amazon'].append({'title': book_ifo[0], 'price': book_ifo[1], 'url': book_ifo[2]})
    else:
        book_ifos['Amazon'].append({'title': book, 'price': 0, 'url': ''})


if __name__ == '__main__':
    start_time = datetime.datetime.now()
    book_ifos = {'dangdang': [], 'Amazon': []}
    threads = []

    for book in books:
        """当当网价格查询"""
        t = threading.Thread(target=d, args=(book, book_ifos))
        t.start()
        threads.append(t)
        """亚马逊网价格查询"""
        t = threading.Thread(target=z, args=(book, book_ifos))
        t.start()
        threads.append(t)
    """等待线程运行结束"""
    for t in threads:
        t.join()
    """统计各网站的总价格"""
    for site in book_ifos:
        total_price = 0.0
        for book in book_ifos[site]:
            total_price += book['price']
        print(site, '\t', round(total_price, 2))

    print('spend time:', str(datetime.datetime.now() - start_time)[:10])
    with open('results.txt', 'w') as f:
        f.write(str(book_ifos))

如果本文对您有帮助，请给我留个言。谢谢！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,376评论 6赞 491
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,126评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,966评论 0赞 347
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,432评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,519评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,792评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,933评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,701评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,143评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,488评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,626评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,292评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,896评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,742评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,977评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,324评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,494评论 2赞 348

在当当和亚马逊中搜书并输出最低价格

代码如下：

推荐阅读更多精彩内容