HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,当该region不能承受不断增长的数据量时,会进行split,分成2个region。在此过程中,会产生两个问题:
1.数据往一个region上写,会有写热点问题。
2.region split会消耗宝贵的集群I/O资源。
基于此我们可以控制在建表的时候,创建多个空region,并确定每个region的起始和终止rowkey,这样只要我们的rowkey设计能均匀的命中各个region,就不会存在写热点问题。自然split的几率也会大大降低。当然随着数据量的不断增长,该split的还是要进行split。像这样预先创建hbase表分区的方式,称之为预分区。
1.行键设计
hash(主键) + 年月日时(2019062315)
这里只取hash(主键)的前6位,使得行键的长度正好是16,也就是8的整数倍,在64位计算机中,效果最好。
2.标签设计
列族固定,只有一个,设为f,标签为分钟加上秒数:
分秒(5623)
如果需要精确到毫秒,可以为列族f设置有多个版本或者将标签设计为分秒毫秒(5623142)或者分秒.版本号(5623.1)
3.计算预分区的分割键
- 计算所有主键的前6位MD5值
- 利用TreeSet对MD5值进行排序
- 按分区的数量,通过均匀平分的方法,找出特定的分割键
- 注意:如果主键的数量很多,导致前6位MD5值不唯一,需要适当增大位数。
4.代码实现
import org.springframework.util.DigestUtils;
import java.util.Map;
import java.util.Set;
import java.util.TreeSet;
//计算前6位的MD5值
public static String hash(String key){
return DigestUtils.md5DigestAsHex(key.getBytes()).substring(0, 6);
}
//计算预分区的分割键
public static String[] getSpiltKeys(int regionNum)
{
if (regionNum < 2)
return null;
Set<String> set = new TreeSet<>();
DCSPoint[] points = DCSPoint.values();
for (DCSPoint point : points)
{
set.add(hash(point.getFullName()));
}
int size = set.size();
if (size < points.length)
{
return null;
}
String[] array = new String[size];
set.toArray(array);
String[] keys = new String[regionNum-1];
for (int i = 0; i < regionNum-1; ++i)
{
keys[i] = array[size/regionNum * (i+1)];
}
return keys;
}
5.预分区
一个regionserver可以管理的region数量和列族数量与每个列族缓存的大小有关,计算公式如下:
((RS memory) * (total memstore fraction)) / ((memstore size)*(families))
我这里只分了三个region,用hbase shell命令创建表,设置预分区数量为3
create 'DCS', 'f', SPLITS => ['541319','a49d81'] ;
下图中,可以看到,预分区以后,数据的读写访问请求数量均匀分布在3台RegionServer上,避免了热点问题。