Sharding - 分库分表

Sharding

随着业务发展、用户量的增长，技术团队都会遇到数据量大、查询缓慢、大数据量的存储问题。一般来说，Mysql单库超过5000万条记录，Oracle单库超过1亿条记录，DB压力就很大，当然容量大小和具体业务、字段数量、访问模式、数据内容等都有进一步关系。如果仅仅是查询缓慢，可以先从sql优化、缓存、读写分离等手段解决。当数据量增长超过单库限制时，很容易出现性能问题，会自然而想到分库分表存储数据，即sharding。

sharding分类

sharding指的是数据分片存储，和数据库的主备、读写分离不是一个问题。主备是为了提高系统的高可用性；读写分离是应对某些情况下，读性能的优化和要求。sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库上，从而缓解单一数据库的性能问题。sharding可以大概分成两类，垂直切分和水平切分。

垂直切分。对于海量数据的数据库，如果是因为表多而数据多，而每张表的数据量相差不大，这时候适合使用垂直切分，即把关系紧密（比如同一模块）的一些表切分出来放在一个库，从而将原来的单库切分成多个库。
水平切分。对于表不多、但每张表的数据非常多的情形，适合水平切分，即把表的数据按某种规则（比如按ID散列）切分到多个库上。
通常情况下，需要同时考虑水平切分和垂直切分，甚至也可以单库内部做表拆分，实际的切分原则都需要考虑自己的实际情况。当同时进行垂直和水平切分时，切分策略会发生一些微妙的变化。比如：在只考虑垂直切分的时候，被划分到一起的表之间可以保持任意的关联关系，因此你可以按“功能模块”划分表格，但是一旦引入水平切分之后，表间关联关系就会受到很大的制约，通常只能允许一个主表（以该表ID进行散列的表）和其多个次表之间保留关联关系，也就是说：当同时进行垂直和水平切分时，在垂直方向上的切分将不再以“功能模块”进行划分，而是需要更加细粒度的垂直切分，而这个粒度与领域驱动设计中的“聚合”概念不谋而合，甚至可以说是完全一致，每个shard的主表正是一个聚合中的聚合根！这样切分下来你会发现数据库分被切分地过于分散了（shard的数量会比较多，但是shard里的表却不多），为了避免管理过多的数据源，充分利用每一个数据库服务器的资源，可以考虑将业务上相近，并且具有相近数据增长速率（主表数据量在同一数量级上）的两个或多个shard放到同一个数据源里，每个shard依然是独立的，它们有各自的主表，并使用各自主表ID进行散列，不同的只是它们的散列取模（即节点数量）必需是一致的.

sharding中需要解决的问题

事务问题。当同一个业务中涉及到多库时，就需要考虑分布式事务了。对于分布式事务的解决，有多种方案，比如两阶段提交、一阶段提交、Best Efforts 1PC模式和事务补偿机制等。
数据迁移，容量规划，扩容等问题。建议利用对2的倍数取余具有向前兼容的特性（如对4取余得1的数对2取余也是1）来分配数据，避免了行级别的数据迁移，但是依然需要进行表级别的迁移，同时对扩容规模和分表数量都有限制。
跨节点sql。如跨节点join、count、order by、group by以及聚合函数等。只要是进行切分，跨节点Join的问题是不可避免的。但是良好的设计和切分却可以减少此类情况的发生。解决这一问题的普遍做法是分两次查询实现。在第一次查询的结果集中找出关联数据的id,根据这些id发起第二次请求得到关联数据。因为它们都需要基于全部数据集合进行计算。count、group by等问题，一般的解决方案是分别在各个节点上得到结果后在应用程序端进行合并。和join不同的是每个结点的查询可以并行执行，因此很多时候它的速度要比单一大表快很多。但如果结果集很大，对应用程序内存的消耗是一个问题。
分布式唯一ID问题。BIGINT型可以使用Twitter的分布式自增ID算法Snowflake，VARCHAR类型可以考虑UUID。但是Snowflake也会有自己的问题，比如某些场景，生成的值大部分都是偶数。
sharding的时候还需要考虑自身的业务。比如根据用户ID分订单表，有些用户根本不下单，但是可能有些用户的订单量占比超过总量的80%，如果这些用户被sharding在了同一个库和表中，实际的sharding效果就会很差。这种情况就需要自定义分表规则。

中间件

对于Java服务来讲，很大的一个优势就是生态完善，组件齐全。sharding也是如此。sharding的中间件大概可以分成两大类，一种是基于jdbc的lib组件，一种是基于代理(Proxy)的中间件。基于jdbc的lib组件，好处在于易于和Java服务集成、轻量；易于上手，无运维成本；业务直接到数据库，少一层proxy理论上性能更好。基于Proxy的中间件，需要在所有的数据源中间搭一个Proxy服务，Java的数据源只连接到Proxy上，由Proxy负责底层的分库分表，以及请求路由，优势在于解耦性比较高；可以找专门的DBA负责和运维Proxy，分库分表操作对于Java程序员透明化；易于实现监控、数据迁移、连接管理等功能；劣势就是运维成本的增加，小公司可能没有预算请专门的DBA和运维人员来做这个解耦工作。

lib组件包括：当当网sharding-sphere、蘑菇街TSharding；
基于Proxy的中间件：TDDL、DBProxy、Atlas、oneproxy、vitess、mycat、cobar等。此处就不做各个中间件的对比了。

代码

https://github.com/chxfantasy/dynamic-datasource-with-sharding-starter

这里实现了一个支持多库路由、分库分表的spring-boot-starter，基于baomidou/dynamic-datasource-spring-boot-starter 和 sharding-sphere

dynamic-datasource本身是为了在同一个系统中支持多库，包括主备、读写分离、多库等，多个读库时，支持定义负载均衡算法；sharding-sphere是基于lib的分库分表组件，可以根据配置的规则动态路由到相关库和表。在我的代码中，sharding-sphere做一个dynamic-datasource的一个数据源。

一个问题：既然sharding-shpere本身已经支持多库、分库和分表，为何还要再将它集成到dynamic-datasource中？有两方面原因：首先，sharding-sphere原理是对sql语句进行改造，然后路由到相应的数据源和表，这就导致它对某些sql语句不支持，比如distinct，在分库分表的场景下就无法使用distinct关键字，但是对于未sharding的表，也无法使用distinct，这时候就可以使用dynamic-datasource来为未sharding的表做一个新的数据源；其次，某些系统，可能需要挂载很多数据库(比如后台管理系统需要挂载5个库)，而其中只有1个库涉及到sharding，而其他4个库不涉及，这时候就只能用dynamic-datasource来管理另外的4个库和数据源。

代码中有example，仅供参考。

Ref: https://www.cnblogs.com/jshen/p/7682502.html

最后编辑于：2018.10.08 23:14:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,542评论 6赞 504
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,822评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,912评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,449评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,500评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,370评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,193评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,074评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,505评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,722评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,841评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,569评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,168评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,783评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,918评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,962评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,781评论 2赞 354

Sharding - 分库分表

Sharding

sharding分类

sharding中需要解决的问题

中间件

代码

推荐阅读更多精彩内容