电商是爬虫不可略过的去处。
目标天猫旗舰店,将阿迪达斯天猫旗舰店所有男子商品名称及价格信息获取下来。
开发环境
- python3.7
- requests模块
- lxml模块
- json模块
- mysql模块
获取分析
页面多请求多还复杂,找到这个URL可真不容易,毕竟是天猫。
能发现所需的数据虽然是通过异步加载得到,但并不是理想的json格式。
除此之外还能发现,jsoup,是java的html解析器。
用lxml同样能解析!
response = requests.get(url,headers = headers).text
html = etree.HTML(response)
itemsname = html.xpath("//div/div[3]/div/dl/dd[2]/a/text()")
itemsprice = html.xpath("//div/div[3]/div/dl/dd[2]/div/div/span[2]/text()")
for name in itemsname:
itemname.append(name.strip())
for price in itemsprice:
itemprice.append(price.strip())
所需数据已经抓取下来。
最后通过pymysql模块将数据保存下来。
结果展示:
(阿迪达斯天猫旗舰店一共4520件男子商品(目前)。后续商品数量或许不止4520件,会有所增加。)