为什么通过日志方式采集数据?
减少对业务库的入侵,如果使用全量方式获取数据会对业务库造成很大的性能影响。通过流式采集binlog对业务库的入侵性降到最低。
目前流式采集binlog的几种开源方案
1.Maxwell
maxwell是读取mysql binlogs 并将行更新为json格式数据到kafka,kinesis,或者其他流式平台一个守护进程。Maxwell的操作开销很低,只需要mysql和一个写入位置。Maxwell为您提供了无需重新构建整个平台的事件源的一些好处。
Maxwell与mysql 通信是采用mysql-binlog-connector-java开源框架。
2.Canal
canal是纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL.
Maxwell 与 Cannal 对比
- 两者都是纯java开发。
- canal集群方式部署,系统比较臃肿,复杂性也相对较高,可定制性也比较差,所以我们没有考虑这种方案。
- 虽然Maxwell不能直接支持HA,但是它支持断点还原,即错误解决后重启继续上次点儿读取数据。
- Canal是服务端,数据过来了并不能直接写出去,需要一个客户端:syncClient去获取数据。Maxwell即是服务端也是客户端。
- Maxwell支持Bootstrap,即刷全量的数据,而Canal不支持。
- 两家产品社区都比较活跃。
小结:个人推荐选择Maxwell。
- 服务端和客户端是一体的
- Maxwell是轻量级的,出错风险低,Canal经常出错
- 虽然部署的是单台,但是具有断点还原能力,出错好解决
BinLog的协议,数据发送方式
通过dump协议进行数据交互。
binlog日志格式为ROW:binlog推送的event中包含变更的数据。
BinLog日志格式
- Statement:每一条会修改数据的sql都会记录在binlog中。
优点:不需要记录每一行的变化,减少了binlog日志量,节约了IO,提高性能。(相比row能节约多少性能与日志量,这个取决于应用的SQL情况,正常同一条记录修改或者插入row格式所产生的日志量还小于Statement产生的日志量,但是考虑到如果带条件的update操作,以及整表删除,alter表等操作,ROW格式会产生大量日志,因此在考虑是否使用ROW格式日志时应该跟据应用的实际情况,其所产生的日志量会增加多少,以
及带来的IO性能问题。)
缺点:由于记录的只是执行语句,为了这些语句能在slave上正确运行,因此还必须记录每条语句在执行的时候的一些相关信息,以保证所有语句能在slave得到和在master端执行时候相同 的结果。另外mysql 的复制,像一些特定函数功能,slave可与master上要保持一致会有很多相关问题(如sleep()函数, last_insert_id(),以及user-defined functions(udf)会出现问题). - Row:不记录sql语句上下文相关信息,仅保存哪条记录被修改。
优点: binlog中可以不记录执行的sql语句的上下文相关的信息,仅需要记录那一条记录被修
改成什么了。所以rowlevel的日志内容会非常清楚的记录下每一行数据修改的细节。而且不会
出现某些特定情况下的存储过程,或function,以及trigger的调用和触发无法被正确复制的
问题
缺点:所有的执行的语句当记录到日志中的时候,都将以每行记录的修改来记录,这样可能会产生大量的日志内容,比如一条update语句,修改多条记录,则binlog中每一条修改都会有记录,这样造成binlog日志量会很大,特别是当执行alter table之类的语句的时候,由于表结构修改,每条记录都发生改变,那么该表每一条记录都会记录到日志中。 - Mixedlevel:以上两种Level的混合。