爬虫实战——三大指数之百度指数（下）

（本人原创，谢绝转载）

咳咳。。豇豆哥昨天偷懒了，没给大家分享文章。。太累了

今天可就不能偷懒了。。继上一篇微信指数推出来，粉丝蹭蹭蹭的上涨，心中大喜（实则窃笑，不知道多少小白又要入坑啦）哈哈。。。

今天推出第三篇，百度指数。

感谢篇：

写这篇文章之前还是首先要感谢一些人：

@采铜谢谢老大哥给我提供的思路与提示

其次感谢@七夜的故事谢谢老哥提供解决百度登录的思路。。思路清晰明了，一读就懂。

当然还有一个最需要感谢的是我的团队老哥@小庄此老哥骨骼精奇，专治疑难杂症！！

好了正式开始！

分析篇：

百度指数：百度指数搜索关键词：美女（百度：想看美女，没门！）

给我给我登录，不登录门都没有！！

好吧，开启踩坑之路！！

1、百度登录。。推荐大家上github上搜索baidulogin.py （也就是我要感谢的哪位老哥提供的登录思路。）登录可以解决了额。。

2、那么我们就开始疯狂的搜搜（什么美女啊，波多野结衣啊、日本女优啊。。。咳咳差不多了，一个一个的来不然受不了）查到了吧，哈哈这么简单。有日期，有数据。这不正是我想要的吗？（此时脑袋中疯狂的想到了用fiddler抓包，分析，请求，gameover）

开启fiddler中。。。。

我找啊找。。，找到了，简单吧。。返回值还是json（我的最爱。）咦？不对吧，这个返回值怎么没有我需要的数据呢（坑来了。。。）

3、寻找我需要的数据，但是返回值是一串我看不懂的代码。等等。。我发现一个userIndexes_enc的值是不一样？这个是什么值呢，于是乎我在整个fiddler里面搜索关键字：b3ef，发现了

哈哈有收获吧，在来看看这个这个网页的返回值是什么？感觉是个前端的代码。。看不懂（大坑）

好吧，可以先把userIndexes_enc的值拿下来，可能有用。

4、继续寻找参数来源：

在寻找这些参数的来源时候，是通过web端的代码去解析出res和res2来获取的，这一段得感谢@采铜老哥的解答。我成功的拿到了res 和res2，我是用了execute_script这个函数去执行脚本后拿到的（坑）

5、这一段代码有啥用呢？我也不知道，主要是看不懂源代码，赶紧去补一些前端的知识（祭出我百度大法好，坑！）。。大概了解这段代码的意思后，俺们动手了。

大概的意思是一些html下图片。（似乎懂了，百度这个大坑。居然用前端渲染的图片作为返回值！！！下次搜索放弃你了，还是我Google大法好！！！）

6、拿到图片后，当然得识别图片上的数字啦。。（悄悄告诉大家，又是一个大坑！），识别图片嘛，简单。。tesseract随便搞搞就出来了。。咳咳把图片拿下之后才发现是这样的。

蒙版识别（吐。。。。），不过坚持就是胜利，把数据从里面拿出来就行啦。。不难不难

于是乎，我开始了我编程的大坑路！！

编程篇：

1、百度登录这块直接参考别人得文章，耗费的时间实际上不长（乔布斯老人家说过嘛，greate artist steal。https://github.com/qiyeboy/baidulogin/blob/master/baidulogin.py

这个不错，逻辑清晰，代码干净，万能的github果然不辜负我的重望）

2、获取res、res2、res3[]，实话说，获取res和res2是最难的，想过很多办法都没获取，在团队（奇男子的帮住下，两行代码解决问题，在下怎么一个服字了得！！！记住：他叫小庄！！！）res3[]的获取相对要简单的多，传入一个时间参数，res和res2传入进去后就能获得！

3、请求数据，获得html的图片，并采用切割拼接的方法获得数据图片(老板，上菜)：

拼接渲染之后的图片。

4、图片识别，这块网上教程太多，我就不多讲！

还是给大家贴一点福利吧（核心代码）：

ok，编程篇讲完了，是不是感觉一脸闷逼。。

咦好像少了一点啥：

对对对！！！结果图：

第一章是win7下直接采集的数据：

第二章是通过接口调用获得的数据：

数据截图不完整，可以对比一下，接口是调通了的。。

总结篇：

1、分析很关键，分析通了写代码就很简单。

2、从根源找起，找到需要的参数，一步一步的走过来（实话说：是不是有点像高中数学中的证明题！！特别是反证法。ps：俺的最爱）

3、用到的技术：Python执行js代码的库，selenium+phantomjs获取cookies,图片的切割和拼接，图像识别（像素比对）。

4、在图像识别这块可以使用神经网络学习，不过俺不会，继续加强学习！本人技术比较low，还有很多不懂的地方，知乎中的各位大神小神，文章有不妥的地方欢迎指出，也欢迎粉我，私信骚扰俺。

最后编辑于：2017.12.10 05:29:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,565评论 6赞 479
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,021评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,003评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,015评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,020评论 5赞 370
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,856评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,178评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,824评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,264评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,788评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,913评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,535评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,130评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,102评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,334评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,298评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,622评论 2赞 343

爬虫实战——三大指数之百度指数（下）

推荐阅读更多精彩内容