有一年没有更新文章了,最近一年一直在恶补如何做数据分析和数据挖掘知识,现在把这一年的经验成果分享给大家。
最近一段我先教给大家如何数据获取的方法,大家听到数据抓取,可能想这个需要专业编程能力,告诉你们不需要编程也可以自动抓取数据。
今天教大家使用excel就可以抓取网站的数据,而且还可以设置自动更新数据,本次拿一个空气质量数据网站作为数据爬虫源。
第一步:你装上一个office软件
第二步:新建一个excel,并打开
第三步:切换到数据选项卡,点击“自网站”
第四步:输入需要爬取的网页url
第五步:选择需要加载的数据并加载
以上几个步骤就完成了一个网站数据导入
高级技能:
1.设置数据自动刷新
选择设计选项卡,点击刷新里面的“连接属性”
勾选“刷新频率”并设置刷新时间(默认是60分钟)
2.有的网站数据被设置反爬机制,数据抓取可能需要复杂的设置,可以在“自网站”中切换到“高级”标签里,里面可以设置一些http请求标头等参数。后面一些文章我会一一交给大家如何使用高级编辑。
今天就先给大家介绍到这里,文章写的太烂请多多包涵,请期待我下一篇吧。