上周工作:跟随网上教程学习了python爬虫相关知识,搜索查阅论文相关文献,构思论文框架。
问题:我参考的一个项目是通过定位爬取饿了么附近店铺的销量信息,但淘宝本身似乎并不支持直接查看某地区的商品销量及构成。我在网上找到的大部分淘宝爬取项目均为在搜索栏搜索商品关键词,再爬取搜索的商品相关信息,也就是说需要限定商品类别。同时因为收货地由用户下单时直接填写具体地址,没有找到能够直接在淘宝页面根据用户收货地爬取所购商品的方法。尝试修改代码,不在搜索框输入关键字,同时限定发货地与定位i地点均为兰州,进行兰州市同城商品信息爬取。但由于淘宝限定用户须以商品进行搜索,以城市搜索商品有时会因范围过大而得不到想要的结果。
另外因为淘宝反爬严重,暂时没有尝试爬取太多信息,同时也未对数据进行分析处理。淘宝商品名称五花八门,只按照特定的关键字(生鲜、服装等)进行正则提取也有遗漏,如何将之进行精确分类暂时也没有想到合适的方法。