获取微信公众号所有历史文章链接地址

在线工具：微信文章转PDF

提前声明：本文不介绍具体的代码部分，只提供思路。具体代码部分较为复杂，文章末尾会列出参考网址。

前面有写过一篇文章：《将微信公众号所有历史文章保存为PDF电子书》。方法的第一步是通过Fiddler 抓包的方式，获取微信公众号可以在浏览器中打开的历史文章链接。

可惜的是，等我再次想要运行程序时，上面的第一步已经失效了。可能是微信那边为了反爬虫又改了规则吧。

所以在我的不断寻找、实践和学习下，又找到了一个方法，这个方法应该是目前的最优解了。

此方法的原理

也是基于代理服务器，不过这次不会获得一个链接在浏览器中打开，而是直接通过代理服务器获得微信和服务器之间的传输数据，从传输数据中一层一层地提取出目标数据。

代理服务器原理

引用网上的一句话：

代理服务器是个中间人，站在了客户端和服务端中间，双方通信的每个比特，都会滴水不漏地经过它。它控制了完整的请求头、请求体、响应头、响应体，可以在客户端与服务端都无感知的情况下介入处理所有的流程。只要代理服务器可以实现灵活配置，前端工程师们的奇葩需求就有出头之日了。

工具

代理服务器的轮子：AnyProxy，基于语言Node.js 实现的。

AnyProxy 有开放了http 通信过程各个阶段的API 接口，可以让开发者实时干预通信过程，然后完成各类自定义的需求。

所需了解的知识

JavaScript
Node.js
HTTP 协议
AnyProxy 文档

本次实现过程，完全脱离了上篇文章用到的Python 代码部分，而是由目前较为流行的JavaScript 编程语言作为基础来实现。

注：Node.js 是在后端（脱离浏览器环境）运行的JavaScript 代码。

实现逻辑与步骤

电脑终端运行AnyProxy，使手机与电脑处于同一网络环境，然后在手机WiFi 设置中手动配置HTTP 代理地址与端口。
设置好之后，手机上的所有请求与响应均会通过此中间人AnyProxy，且其请求URL 都会显示在终端。
明确目标：抓取微信公众号历史页的文章链接地址。
设置AnyProxy 规则，判断当请求页面是微信历史页时，解析其从服务器端返回的数据，获得文章链接。
作为中间人的AnyProxy 不仅可以获得Response 消息，且可以修改其内容，所以可以添加一串自定义js 代码在Response 中，功能是使网页不断下拉至最低端，这样在手机端的页面便可以自动下拉页面。然后便可以不断的向服务器请求文章列表。（微信历史页是Ajax 请求，当网页浏览至至最低端时，会触发请求更多的数据，直至此公众号最早的一篇文章。）
第5步的每次请求都会再次调用第4步的解析规则，解析之后将url 保存至文本文件中即可。（当然也可以细分title、date和url 等字段，保存至数据库）
得到了历史文章链接，便可以通过爬虫批量拿到所有文章的内容等数据了。具体可参考我上篇文章《将微信公众号所有历史文章保存为PDF电子书》。

功能演示

手机打开历史消息页后，即触发了连接网页的事件，这时便会自动下拉至最早的文章，终端会提示抓取到的文章标题，然后桌面也会新增一个文本文件用来保存对应的文章链接。

待实现功能

用此AnyProxy 直接获取每一篇文章的内容，包括点赞量和阅读量，而不需经过其他程序。

参考链接

主要参考知乎上一大神：微信公众号文章批量采集系统的构建。https://zhuanlan.zhihu.com/p/24302048
AnyProxy 官方GitHub：https://github.com/alibaba/anyproxy
Node入门：http://www.nodebeginner.org/index-zh-cn.html
推荐书籍：《JavaScript 高级程序设计》

最后编辑于：2020.02.07 14:36:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 207,248评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,681评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,443评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,475评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,458评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,185评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,451评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,112评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,609评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,083评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,163评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,803评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,357评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,357评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,590评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,636评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,925评论 2赞 344