Python 抓取淘宝联盟优惠券

要获取淘宝联盟的数据第一步当然是分析淘宝联盟的 html 啦。
话不多少说,我们开始吧。

  1. 首先我们进入淘宝客的主站 https://pub.alimama.com/

    淘宝客

  2. 随便点一个进入商品推广页面,如女装尖货(女人的钱是最好赚的啦!)。


    女装尖货
  3. 按 F12 打开元素审查,选择 Network 选项卡,再刷新下页面,仔细观察网络请求变化。我们可以看到有如下一个请求,这个请求是干嘛的呢?这个请求的当然就是请求的可以进行推广的商品啦。


    网络请求监听
  4. 点击 preview 进入到预览,让我们看一看请求的数据结构,pageList 就是我们需要的商品信息啦。

    数据.png

  5. 那么我就可以用上面的请求去爬取优惠券信息啦。通过上面,可以看到这是一个 Http - get 请求,得到的是一个标准的 Json 结构的数据。那么我们就可以使用 requests 来模拟 get 请求,然后使用 json 将数据解析出来。

def crawler_product(cookie, dit):
    for i in range(1 if dit['start_page']==0 else dit['start_page'], 1000 if dit['end_page']==0 else dit['end_page']):
        end = crawler_product_page(dit, i, cookie)
        if end:
            print u'======================== 结束 ========================'
            break

def crawler_product_page(dit, page, cookies):
    print u'============================= 开始抓取第 ' + str(page) + u'页 ============================='
    print u'url ==> ' + get_product_url(dit['product_url'], page)
    print '\n'

    r = requests.get(get_product_url(dit['product_url'], page), cookies=cookies)

    info = r.json()['data']

源码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 昨晚听了明月老师的“行动效能提高5倍的秘密”,今晚来写,好像想不起来多少了,只记得一幅图,图中把学习分为主动学习和...
    妮的明天阅读 185评论 0 0
  • 12/03/2016每日回顾 今天是周末,每周计划也完成的差不多,所以今天就放松了一下,还有一件很兴奋的事情就是,...
    迷妹乔小喵阅读 355评论 1 4
  • 方案1:CSS3 vw单位 CSS3 中新增了一组相对于可视区域百分比的长度单位 vw, vh, vmin, vm...
    codeice阅读 4,662评论 0 1