排查一例 C++ 和 Lua 交互的诡异 bug

最近我负责的一个线上 Lua 服务偶尔会 crash，陆陆续续查了好几个星期，上周终于解决了，记录一下排查的过程和思路，这次排查中第一次按照之前看的一本故障排查的技巧进行分析，感觉很有用。

服务架构

首先介绍下线上服务的架构，我们线上是一个推荐系统，推荐系统的重排模块使用 Lua 开发，使用 Lua 的原因，主要是 Lua 作为脚本语言，性能比较好，容易和 C++结合，也适合应付需求的迭代（我们系统 80% 的临时需求，都在重排模块实现，需要快速迭代）。

重排模块的网络框架用 C++ 实现，我们对 C++ 和 Lua 的交互接口进行了一层封装；Lua 代码用来实现重排的业务逻辑。Lua 和 C++ 通过一些接口来互相调用，例如

Lua 需要调用 C++的接口获取正排信息（后文把这个接口称作GetDocInfo，正排信息写作 DocInfo）。
Lua 的输入包括用户画像信息（后文称作 Profile）和推荐结果（后文称作 Meta）的信息。

Profile 和 Meta 都使用 Protobuf 定义，框架会通过 Protobuf 的反射，把 Protobuf 结构转换成 Lua 中的 table，而 DocInfo 则放在共享内存中，没有使用 Protobuf 定义。DocInfo 信息需要经常更新，更新 DocInfo 的操作不是一个增量更新，而是全量更新 DocInfo，因此更新操作以后，同一个 DocInfo 的地址会发生变化，我们会使用 double buffer 的方法，来更新 DocInfo，减少更新操作对请求的影响。

在迭代过程中，GetDocInfo 是做了优化的。最初 GetDocInfo 需要实现一个转换函数，把 DocInfo 整体翻译成 Lua table，但分析发现一个 DocInfo 中的字段并不都会在 Lua 中使用，因此这个整体的翻译操作，实际上做了很多无用功。因此，我们使用了 Lua 的 userdata 来进行优化，原理就是 Lua 调用 GetDocInfo 时，直接返回一个 userdata 的结构，userdata 实际的内容，是一个指向 DocInfo 实际内存位置的指针，当真的需要使用 DocInfo 中的某个字段时，再通过 userdata 的index方法，解析对应的字段，返回给 Lua，这个优化可以把整个重排的耗时降低10%左右，单接口的耗时减少 50% 以上，这当然不好直接比较，因为修改后的方法，只是获取一个指针，相当于是在使用字段时分摊了翻译字段的时间。

此外，这个过程还可以实现一些缓存，例如：

在 C++ 中，可以有一个缓存，放在从共享内存中获取 DocInfo 之前，这个缓存是进程级的，需要在 DocInfo 更新时做清除操作。
在 Lua 中，实现一个全局的缓存，缓存 userdata 信息，这个缓存是脚本级别的，只要脚本不更新（脚本会在更新业务逻辑是更新）缓存就一直存在，这个缓存也需要在 DocInfo 更新时做清除操作。
在 Lua 中，还可以实现一个请求级别的缓存，缓存的是 userdata 信息，这个缓存会在请求结束后清空，每个请求只有几十毫秒，远小于 DocInfo 更新的间隔，加上 DocInfo double buffer 的保护，这里不需要考虑请求过程中，DocInfo 更新的问题。

分析 crash

crash 就发生在使用 DocInfo 的某个字段时，core 文件能够提供的信息很少，一是因为堆栈中的 DocInfo 地址已经不可读，无法从 DocInfo 中获取导致 crash 的 id；二是服务采用了 gcc -O2 的编译参数，一些堆栈信息被优化了，堆栈中没有发现有用信息；三是因为调用过程经过了 Lua，gdb 无法直接打印 Lua 中的堆栈信息，不知道 Lua 代码执行到了哪一行，也导致了分析没有头绪。

调试信息一

由于线索比较少，首先就是希望能找到导致 crash 的 id，通过逐层打印堆栈信息，我发现可以在 index 对应的处理函数中增加一个临时变量，记录 DocInfo 的 id，这样没准下次 crash 时，就可以知道导致 crash 的 id了。

方案一

再次 crash 时，我检查乐这个增加的 id 信息，发现已经不是一个合法的 id，此时我推测是不是调用 GetDocInfo 获取的 Docinfo 就是错的，如果是这样，虽然还没有找到问题的原因，但是可以增加代码，处理这种异常，例如：我可以在 GetDocInfo 内部获取到 DocInfo 指针时，立刻将输入的 id 和 DocInfo 的 id 做一次对比，如果不一致，就认为 DocInfo 已经失效，返回错误。

调试信息二

这次改动并没有解决问题，进程还是会 crash，这说明在获取 Docinfo 时，这个 id 还是正确的，是在之后的某个时间点， DocInfo 的地址才失效。此时暂时没有思路，希望能有更多的调试信息，我想看到 Lua 的调用栈，看看能不能有线索，google 发现 OpenResty 的项目中，有个开源的工具可以通过 lua_State 指针在 gdb 中展示 Lua 的堆栈信息，只是这个工具和 OpenResty 有些依赖，还需要自己小小修改，尝试了几次后，我看到了core 文件中的 Lua 堆栈，同时 Lua 各个栈中的变量也都可以查看，此时可以参考的信息变多了，但是依然没有发现线索。

调试信息三

于是我又回过头，思考什么情况下 DocInfo 地址会失效。就算是地址失效也分两种情况：

userdata 中的 DocInfo 地址被修改了，就是说调用 GetDocInfo 时，得到的就是一个正确的地址，但是后来因为一些操作，把这个地址给修改了，导致地址失效。
DocInfo 的地址没变，但这块地址的数据被修改了，这有可能是 DocInfo 更新时导致的。
我怀疑索引更新有问题，例如double buffer 的代码有 bug，导致我应该读 A 份索引时，读到了 B 份索引，导致地址错误。

这些猜测都要想办法验证。首先就是修改代码，在 C++ 中增加一个 debug 信息，记录当前请求中，所有调用 GetDocInfo 的 id 和对应返回的 DocInfo 地址。我希望不光是能在 core 文件的堆栈中看到这个信息，还要能看到 crash 进程之前请求中的 debug 信息；另外，通过/proc/id/smap 可以看到共享内存中两份索引使用的内存地址范围，这样就可以通过 DocInfo 的地址，知道用的是哪份索引文件。

第 N 次分析 crash

再次遇到 crash，此时因为有几个思路都要验证，为了不走回头了，我特意开了一个文档，记录自己这次分析中的一些信息，例如

导致 crash 的 id。
出错请求的标识信息（可以找到用户的画像）。
出错的时间点。
c 堆栈中看到的 DocInfo 地址。
通过 smap 看到的两份索引文件的地址范围。
两份索引文件的更新时间。
对照出错时间点，同机器，其他进程请求中，获取相同 id 时，取到的 DocInfo 地址。
调试信息三中添加的 DocInfo 和 id 的对应关系。
crash 的请求中 Lua 已经处理过哪些 id。

然后对这些信息进行分析

发现同时间点，同机器，其他进程获取到的相同 id 的 DocInfo 和 crash 进程不一样。说明 crash 进程 GetDocInfo 函数返回了一个错误地址。
分析 crash 进程之前一段时间，crash id 的 DocInfo 地址，发现 crash 时的地址，在之前请求是出现过，说明 crash 时，是使用了一个过期的地址。
发现 crash 的请求中，有一些 Lua 处理过的 id，在调试信息三中，没有找到对应的 DocInfo 地址，说明 Lua 在处理这些 id 时，没有调用 GetDocInfo。

最后的分析

此时已经有些思路了，感觉 crash 的请求，是使用了缓存中的 DocInfo 地址。检查代码，发现上面提到过的第三种缓存可能会有些问题。我们服务的 Lua 调用链如下所示：

-- main.lua
function main()
    local tuner = require "tuner.lua"
    tuner.doTuner()
end

-- tuner.lua
local context = {
    local cache = {}
}

local function GetDoc(id) 
      if context.cache[id] ~= nil then
           return context.cache[id]
      end

      local DocInfo = GetDocInfo(id)
      if DocInfo ~= nil then
          context.cache[id] = DocInfo
     end
     return DocInfo
end

local _M = {}
function _M.doTuner()
     GetDoc(id)
     -- other logic
     context.cache = {}
     return metas
end

在main.lua中，每个请求都会调用main()，虽然每个请求都会调用 require，但是 Lua 会对 require 的模块做一个缓存，即 tuner 对象实际是同一个。而在tuner.lua中，context 作为一个局部变量，只会在 main.lua 调用require "tuner.lua"时执行一次，因此需要在doTuner的最后，调用context.cache = {}清除缓存。
如果代码顺利执行，清除缓存的逻辑肯定会执行，但如果doTuner的执行过程中发生了异常，导致了 Lua Crash（Lua Crash 不会导致进程 crash），那么此时context.cache还会生效吗？经过测试，发现 context.cache 还是会生效。而这次进程 crash 就是这个原因导致的，通过搜索 crash 进程的日志，发现 crash 之前，确实发生了一次 Lua Crash，而且这个请求也通过GetDocInfo获取了导致 crash 的DocInfo，修复这个 bug 的方法很简单，就是把context.cache={}这条语句移动到doTuner的第一行即可。

修改上线后，观察一周，crash 未复现，bug 解决。

参考文章：
用 gdb 分析 coredump 的一些技巧

最后编辑于：2018.06.27 15:39:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,277评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,689评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,624评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,356评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,402评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,292评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,135评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,992评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,429评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,636评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,785评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,492评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,092评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,723评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,858评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,891评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,713评论 2赞 354