反反爬虫之js加密参数获取

反爬虫与反反爬虫从爬虫诞生开始就已经存在,反爬策略层出不穷,反反爬也都应对有招。

就我目前碰到的反爬,从简单的user-agent,ajax,封ip,到限制账号访问频率,验证码,加密参数等。这些都是非常常见的反爬,相信大家基本上都碰到过,除此之外,也有一些调皮的网站会有一些有特色的反爬,比如某个招聘网站,网页元素审查看到的标签排版及一些属性与网页源码有点出入,通过js对网页标签进行了改动(这里并不是指的ajax加载新内容),对于一些接触爬虫不久的朋友,可能会死磕在这里,用bs/xpath怎么死都取不出对应的内容呢,因为他们一直在f12元素审查,那并不是源码的真实面目。以上这个例子,来自我的一个爬虫初学者朋友。还有很多有趣的反爬,比如以下这个。。。。

这是我今天在一个群里面看到的哈哈。

对反爬虫与反反爬虫的恩怨情仇感到有兴趣的,推荐看这篇文章,或许你已经看过了:干货 | 那些你不知道的爬虫反爬虫套路

在tg上一个python爬虫群里面,有个群友让我帮忙解密一个网站的加密参数,当时记着了,现在考完有时间就看了看。

这个网站是一个快手火山抖音小视频合集网站,网站链接在这:

https://kuaiyinshi.com/

这个网站有一个接口,可以获取随机一个(我也不知道是什么规则,姑且称为随机)小视频的内容包括评论等等:

https://kuaiyinshi.com/api/dou-yin/recommend/

可以从这个接口中获得一个视频的url,比如:

//aweme.snssdk.com/aweme/v1/play/?video_id=:117:150:176:161:188:157:125:184:137:98:176:123:117:102:131:159:122:99:128:161:141:203:128:137:190:147:130:166:163:152:134:203&line=0&ratio=720p&media_type=4&vr_type=0&test_cdn=None&improve_bitrate=0

但事实上,直接用这个链接是获取不到视频的,通过抓包发现,真正的视频链接是以下这个:

//aweme.snssdk.com/aweme/v1/play/?video_id=4fc7b70d02b7436593373e35ec4bbe9a&line=0&ratio=720p&media_type=4&vr_type=0&test_cdn=None&improve_bitrate=0

通过对比可以看出,video_id参数的值i发生了改变,由:117:150:176:161:188:157:125:184:137:98:176:123:117:102:131:159:122:99:128:161:141:203:128:137:190:147:130:166:163:152:134:203变为了4fc7b70d02b7436593373e35ec4bbe9a

需要找到这个加密方法。

以下讲讲步骤

首先,肯定是打开网页开发者工具,刷新网页,抓包,分析抓到的http包内容。

然后,肯定是,ctrl+shit+F,全局搜索,搜索关键字:video_id。

可以看到,由两个js文件中出现了video_id。

分别为:

https://kys.tqdn.cn/js/main.js?t=1530178376    

https://kys.tqdn.cn/js/public.js?t=1529140999    

其中main.js如下:

太乱了,js代码就和毛线球一样,愿意的话,可以把它扯乱成一团,然后让你去把它理清。很显然,为了反爬,这个网站就是这样做的。

但不管怎么说,还得继续。

把它们全部复制出来,然后找个在线格式化js代码的网页小工具。得到如下格式化代码:

另外一个js文件也是这样。

然后再定位video_id在这两个js文件中的位置,观察一下发现,public.js中的video_id和加密方法无关系

在一个judgeSource的函数里面,大概可以看出是判断视频为抖音还是快手抑或是火山的一个函数。

所以只需观察main.js文件,大概长这个样子:

是不是很崩溃。。。

先定位下video_id在这个文件中的位置:

看到这第一个变量 __Ox1169c就大概明白了,原来这个文件把一些关键字词全部让这个__Ox1169c数组元素代替了,所以这个js文件才看起来那么让人发慌。

到这里其实考验的就是耐心了,一缕缕的把代码过一遍就行。

我们先看这些函数名字,发现都很有规律的,比如说,我们看到一个creatplay函数,猜也能猜出它的作用吧。在控制台试一下就知道了:

发现一回车,视频便换了一个,ok这个函数肯定和加密video_id有关,我们以这个函数为入口开始看。

看第一个 var _ =  __Ox1169c[94];

我们可以在控制台输入 __Ox1169c[94] 回车,很方便的查看 __Ox1169c[94]的值

按照这个方法,一个个把它还原成成直观的js代码,大致理解。

最后定位到这里:

发现 ab3d7fc 这个函数就是加密方法,ok到此为止,继续看 ab3d7fc 这个函数。

这个函数的两个参数,一个是video_id,一个是ky,ky在控制台输入也可获得。

将 ab3d7fc 这个函数,还原成本来的js代码:

这个时候,可以选择用execjs来执行这段js,或者把它换成python方法。

到此,成功获取了这个网站js加密参数的加密方法。

想爬抖音视频,却不知道抖音的app内加密参数,又不会逆向,除了分享链接接口的方法,这个网站上的抖音视频也很好爬。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,079评论 25 707
  • 1. 概述 本文主要介绍网络爬虫,采用的实现语言为Python,目的在于阐述网络爬虫的原理和实现,并且对目前常见的...
    Lemon_Home阅读 2,748评论 0 21
  • 我不想 背叛 我的诺言 风霜 摧折了所有枝节 脊梁依然挺的 那把无情的刀 直插心脏 差之毫厘 生命仍延续 伤痕在 ...
    残障人生阅读 180评论 0 3
  • 昨天买了几棵小葱包饺子,调馅后还剩下几颗小葱。晚上吃饭时我没胃口,给儿子煮了一些水饺,自己干脆把小葱洗了洗拿来蘸酱...
    一念见花开阅读 794评论 0 0
  • 夏语 一场雨, 下满了离愁, 窗外路人说着不知明的话语。 叶子堆叠着相遇, 泛黄里有暗黑污垢, 不变的路。...
    青庐阅读 114评论 0 0