思路如下:
1、先观察一下前几页的信息。发现前三页网址如下:
http://sh.xiaozhu.com/
http://sh.xiaozhu.com/search-duanzufang-p2-0/
http://sh.xiaozhu.com/search-duanzufang-p3-0/
把第一页的网站改成http://sh.xiaozhu.com/search-duanzufang-p1-0/进行访问得到同样的结果,因此只需要把P后面的数字改掉就可以了(是不是想到了format方法)
2、本次爬虫在详细页面中进行,因此需爬取进入详细页的链接,进而爬取数据。
3、需要爬取的信息有:标题,地址,价格,房东名称,房东性别和房东头像的链接
部分函数代码
#爬虫部分结果