需求:
爬取 http://www.weather.com.cn/weather/101020100.shtml
爬取最近7天的天气预报,包含内容 ['日期', ‘天气’, ‘温度’, ‘风向’, ‘风力’]
将7天的天气数据保存为csv格式文档
解题思路:
步骤一:需求分解
网址:http://www.weather.com.cn/weather/101020100.shtml ----> requests 库
爬取最近7天的天气预报 ----> 可能涉及到遍历,猜测每一天的天气数据在一个子标签内
包含内容 ['日期', ‘天气’, ‘温度’, ‘风向’, ‘风力’] ----> 可以使用正则表达式匹配找出对应需求数据, re库
将7天的天气数据保存为csv格式文档 ----> csv 模块
步骤二:分析页面
chrome打开对应网页:http://www.weather.com.cn/weather/101020100.shtml
右键--> 检查
按顺序点击下图位置:
定位到标签如下:
点击复制 li 的上一级父类标签 class="t clearfix"
在网页中,右键在网页源代码中,按ctrl+F, 确认其是否在所请求的网页源代码之中
可以看到父类标签 class="t clearfix"在网页源代码中能够找到,且数量只有一条
父类标签ul class="t clearfix" 下级子标签 有若干个 li 标签,上图蓝色高亮为今天天气数据,每一下 li 子标签下,都保存有对应那一天的天气数据