爬虫数据采集Post数据中不一样的分页处理

今天遇到一个瀑布流式的网站,凭个人经验,遇到这样的网站,第一步就是抓包分析加载数据。

例子:https://stores.padi.com.cn/?_ga=2.187424673.825376965.1570783167-1912838037.1564103148&tdsourcetag=s_pcqq_aiomsg

如图:

瀑布流网站

  凡是遇到往下滚动,或者点动 加载更多 才能加载更新内容的,基本上都是要抓包分析出这个网站post信息。

  之前我已经做过抓包分析数据的方法了,这里就不累述了,简单说一下,就是任何浏览器中,按F12抓包处理。

我们抓包到这个网站的网址是 :https://stores.padi.com.cn:4001/

post值是:{"operationName":"searchStores","variables":{"first":20,"searchTerm":"","levels":["ALL"],"regions":[],"isEFR":false,"isFreeDive":false,"after":"cjfjdrl3z00h20787fp440g3n"},"query":"query searchStores($first: Int!, $after: String, $searchTerm: String, $levels: [LEVELS_FILTER], $regions: [String], $latitude: Float, $longitude: Float) {\n stores(first: $first, after: $after, searchTerm: $searchTerm, levels: $levels, regions: $regions, latitude: $latitude, longitude: $longitude) {\n edges {\n node {\n id\n nameEN\n nameSC\n number\n address\n addressSC\n telCityCode\n telNumber\n mobile\n email\n url\n lat\n lng\n level\n region\n isFreeDive\n isEFR\n logo\n photo\n wechatLink\n display\n __typename\n }\n __typename\n }\n pageInfo {\n endCursor\n hasNextPage\n __typename\n }\n __typename\n }\n}\n"}

凭个人多年的经验,这个post 值中不一样的数据有 "first":20,和 "after":"cjfjdrl3z00h20787fp440g3n"。

其他多是无关紧要的数据,大家可以多抓几个包,进行比对就知道了。

那这个 "first":20,是什么那,我们看到抓包出来的数据就是 有20条数据,那说明这个是一个固定的值 ,每一次加载,都是按20条进行展示的,到这里,其实我们还可以增加一些测试,就是把这个20改100,会发生什么哪?其实就是一次加载变成了100个,那就能把按20条加载变成了100条,采集的速度肯定也会翻倍了。

接下来 "after":"cjfjdrl3z00h20787fp440g3n" 这个是什么那,after 英文是后的意思,说明这个是一个分页的特别处理,平时我们习惯分页用page=1,数字来处理,这个post里的分页用的是一个代码,那怎么办那,我们不要担心,慢慢分析。我们在抓包一次看一下数据。

post数据2 :{"operationName":"searchStores","variables":{"first":20,"searchTerm":"","levels":["ALL"],"regions":[],"isEFR":false,"isFreeDive":false,"after":"cjfjdtlaq00lw0787xkr8zepk"},"query":"query searchStores($first: Int!, $after: String, $searchTerm: String, $levels: [LEVELS_FILTER], $regions: [String], $latitude: Float, $longitude: Float) {\n stores(first: $first, after: $after, searchTerm: $searchTerm, levels: $levels, regions: $regions, latitude: $latitude, longitude: $longitude) {\n edges {\n node {\n id\n nameEN\n nameSC\n number\n address\n addressSC\n telCityCode\n telNumber\n mobile\n email\n url\n lat\n lng\n level\n region\n isFreeDive\n isEFR\n logo\n photo\n wechatLink\n display\n __typename\n }\n __typename\n }\n pageInfo {\n endCursor\n hasNextPage\n __typename\n }\n __typename\n }\n}\n"}

这里的after又变了,按常规理论来说,post数据里的信息基本都是从上一个分页信息中提取的,不可能会随便添加修改出来的,这个是一个基本理论,那我们看一下,上一次的分页获取的内容是什么样的?


上一次分页加载的内容

从截图来看,edges这个数据下面是0-19个数据,也就是证明了"first":20,这个数据的作用了,那endCursor后面的数据是不是我们抓包第二次中,post值里的 "after":"cjfjdtlaq00lw0787xkr8zepk"}。

到这里基本上就明白了 post值中的after这个分页数据的原理了。

好了,今天就讲到这里,有需要更进一步学习采集post技巧的,可以加我 QQ:315 98720  ,进行交流培训。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352