今日无聊,于是决定重拾爬虫,作为日常娱乐。
最近新能源比较火,所以决定看看基金行情如何,脑海中想到的第一个网站是天天基金网,那么我们打开这个网站看看能否爬点近期的基金情况作为数据分析。
打开天天基金第一眼看到的是这个列表展示,扫了扫,于是决定今日小任务就是来抓取下这个表单数据。
作为一个菜鸟虫虫,咱们思路得清晰,先分析下后台接口情况。方法很简单,按下F12打开浏览器自带的调试工具,然后点击网页上的翻页按钮,抓取下日志瞅瞅。
后台交互很简单,点击preview看下情况。Good!这个圈圈中的请求应该就是我们想要爬取的表单,这个网站反爬机制几乎为零啊。接下来我们进行下一步工作,分析下接口参数。
首先是Headers,get请求+params,一目了然。嗯,估摸着这是从思想上已经放弃抵抗的网站,翻页的参数就在链接中,裸奔状态。
O(∩_∩)O,回到调试工具看看参数名字
http://fund.eastmoney.com/Data/Fund_JJJZ_Data.aspx?t=1&lx=1&letter=&gsid=&text=&sort=zdf,desc&page=2,200&dt=1658849281992&atfc=&onlySale=0