Python实战计划学习笔记：week1_2 爬取商品信息

学习Python爬虫的第2天，解析本地网页，获取相关信息。

把本地网页上的信息按照以上要求爬取，分类

我的代码：

#!usr/bin/env python
#coding: utf-8
__author__ = 'lucky'
from bs4 import BeautifulSoup
info = []
with open('index.html') as url:
    Soup = BeautifulSoup(url,'lxml')
    images = Soup.select('div.thumbnail > img') 
    prices = Soup.select('div.thumbnail > div.caption > h4.pull-right')
    titles = Soup.select('div.caption > h4 > a')
    stars = Soup.select('div.ratings > p:nth-of-type(2)')
    views = Soup.select('div.ratings > p.pull-right')

for image,price,title,view,star in zip(images,prices,titles,views,stars):
    data = {
    'image':image.get('src'),
    'price':price.get_text(),
     'title':title.get_text(),
     'star':len(star.find_all('span',class_ = 'glyphicon glyphicon-star')),
     'view':view.get_text()
    }
     info.append(data)

总结：

1.with...as...在文件I/O处理的时候，可以用来简化try finally代码，看起来可以比try finally更清晰。

2.更好的理解了网页的嵌套关系，特别是子父集关系。

3.除了星级外，剩下的信息的抓取均可以通过本章的课程进行学习，完成。

4.学会了如何从官方文档中查找BeautifulSoup 的 find_all()的用法。

最后编辑于：2017.12.03 07:15:59

Python实战计划学习笔记：week1_2 爬取商品信息

我的代码：

1.with...as...在文件I/O处理的时候，可以用来简化try finally代码，看起来可以比try finally更清晰。

2.更好的理解了网页的嵌套关系，特别是子父集关系。

3.除了星级外，剩下的信息的抓取均可以通过本章的课程进行学习，完成。

4.学会了如何从官方文档中查找BeautifulSoup 的 find_all()的用法。

推荐阅读更多精彩内容