简介
cupid-go是一个消息同步补偿工具,多平台,高性能,内存小,适用于在canal
这类的实时同步数据中间件之外的同步补偿工具,也适用于实时缓存这类的及时更新工具,对数据同步进行双保险,一般canal
的延迟在毫秒左右,cupid
建议设置在秒左右,做补偿专用,canal
的消费端嵌入业务代码可以更方便开发和消费,cupid
作为更通用的补偿方案,所以建议不要嵌入业务代码,补偿机制采用http回调来保证,失败会重试直到成功,若回调失败会通知(目前采用pushbear
微信即时通知,简单即时)。
项目采用go编写,并且已打包好windows
,linux
,mac
版本,可直接到项目里直接下载使用,文件大小大约2M左右,占用内存10M左右,即下即用,不依赖环境。
cupid-go,mac-windows,linux下载地址
项目压测
对线上520w的表数据进行测试,大约25分钟处理加回调完成(回调完全成功不存在重试),内存消耗维持在10MB以下,vmRSS在11MB左右
项目地址
项目使用
只需按照模版根据自身需要修改一个json文件,然后启动即可
模版文件大致如下
{
"workerNumber": 3, //最低值3,前2个进程是manager和callback进程,之后的才是处理进程
"logDir": "/tmp", //日志目录,进程日志会打印到该目录下
"failureJobRetrySecond": 10, //失败队列重试间隔
"src": {
"dsn": "user:password@tcp(127.0.0.1:3306)/db?charset=utf8",//数据库dsn配置
"table": "user",//我们关注的数据库表
"byColumn": "number",//通过该字段对应des的byColumn,进行比对
"insert": true, //是否关注insert的数据
"insertIntervalMillisecond": 2000, //检查insert更新的间隔时间,单位毫秒
"update": true, //是否关注update数据,若为false,则下面update开头的字段可以不用
"updateColumn": "update_time", //update为true时必填,更新的字段名,需要添加索引,不然会扫描全表
"updateIntervalMillisecond": 2000, //update为true时必填,检查update更新的间隔时间,单位毫秒
"updateScanSecond": 5, //update为true时必填,获取数据的时间间隔,当前时间减去updateScanSecond设的时间为开始时间,当前时间为结束时间
"updateTimeFormate": "Y-m-d H:i:s", //update为true时必填,数据库里数据更新字段的时间格式
"cacheFilePath": "/tmp", //若进程有异常退出或者重启,会把当前的遍历信息记录到缓存文件中,重启时直接读取缓存文件
"pushbearSendKey": "9724-73bdacb319007f53f83d0123"//若需要pushbear推送微信消息,在这填写
},
"des": [//des是一个数组,意味着我们可同时比对多个数据表
{
"dsn": "user:password@tcp(127.0.0.1:3306)/db2?charset=utf8",//数据库dsn配置
"table": "user",//我们同步的数据库表
"columns": { //关注和同步表的字段对应关系
"number": "number",
"name": "name",
"avatar": "avatar"
},
"byColumn": "number",//与src的byColumn相呼应,形成关联关系来比对
"callbackNotification": {
"url" : "127.0.0.1:20000/test/callback"//当数据不同步时的回调地址
}
}
]
}
在项目里有一个testConfig.json文件,可直接修改使用
启动命令
./cupid -c /tmp/myConfig.json -s 1
-
-c 或者
--configPath
(必须): config配置的路径,需要绝对路径 ,对config配置有问题可以看文档或者testConfig.json -
-s或者
--startId
(非必须): 起始的数据库表id, 优先级: shell命令传入的start_id > 默认值1
帮助命令
./cupid -h
数据重试
当数据回调失败或处理失败时,会将数据放入失败队列,等待重试,若此时进程退出,数据会持久化到硬盘中,等待下次启动重试
进程正常退出或异常退出
会将所有失败队列里的任务持久化到本地文件中,以便下次启动时重新推入失败队列重试,持久化配置参见config.json
错误数据回调
当数据比对后发现数据存在异常时,会采用http回调,需要在json里配置,回调采用的是POST
形式,Content-Type 为 application/json
{
"type" : 1,
"srcColumn" : {
"column1": "1",
"column2": "2",
"column3": null
}
}
- type, 指的是变更类型,insert是1,update是2
- srcColumn, 指的是源数据列,会把整个源数据传给你, 需要注意的一点 srcColumn传的值若有的都是string类型,没有则是null
微信推送
微信推送采用pushbear
, 一个基于微信模板的一对多消息送达服务,使用简单,高效,只需要申请一个key即可。
supervisord 管理
该项目比较适合搭配supervisord使用,基本上配置文件应该如下
[program:cupid.synchronization-compensation-tool]
directory=/tmp
command=/tmp/cupid -c /tmp/myConfig.json -s 1
numprocs=1
autorestart=true
stopsignal=TERM
stopwaitsecs=2
killasgroup=true
user=nobody
stdout_logfile=/tmp/cupid.synchronization-compensation-tool.log
redirect_stderr=true
loglevel=debug
如果你不用supervisord, 建议重启进程时使用kill -s SIGTERM $master_pid
注意事项
- config.json里的
updateColumn
,需要先添加索引,不然会扫描全表 - 回调接口时,传的srcColumn, 指的是源数据列,会把整个源数据传给你, 需要注意的一点 srcColumn传的值若有的都是string类型,没有则是null
- 所有在自定义时间间隔失败重试队列超过三次仍未成功的任务会推送到10分钟重试队列里
最后
- 求各位大大的 爱心 和 star
- 若有任何问题可直接评论,私信或者github