要理解读写流程,先要清除hbase的架构图。以0.96版本以下的三层架构为例:
hbase是主从架构,主节点是HMaster,从节点是HRegionServer。
HMaster:负责regionserver的运行状态和region负载均衡。
HRegionServer:负责存储表格,以及响应client的连接。包含一个HLog和多个HRegion。
zk负责保证HMaster的高可用和region server的注册。
-----------------------------------------------------------------------------------------------------------------------------------------------
1、hbase的读请求流程
Ⅰ从zk中获取regionserver的meta信息。
Ⅱ通过root表,根据meta信息找到对应的regioonserver位置信息
Ⅲ找到对应的regionserver,获取table的meta信息
Ⅳ通过table的meta信息,找到实际存储table的regionserver
Ⅴ客户端直接连接表所在的regionserver,获取数据
--注:为了让客户端找到包含特定主键的region,HBase提供了两张特殊的目录表,包含.root和.meta。root表用来查询所有meta表中的region位置。hbase的设计中只有一个root region,即root region从不进行拆分。从而保证类似于B+树的三层查找结构。第一层是ZK中包含root region的节点,第二层是从root中查找对应meta region的位置,第三层是从meta表中查找用户表对应的region的位置信息。
2、hbase的写请求过程?
1、client先从缓存中定位region,如果没有缓存则访问zk,找到最先写入的region信息。
2、将更新写到WAL中。为了防止发生数据丢失。
3、将数据写入到memstore中
4、数据达到阈值(默认128m)会触发flush操作,生成多个storefile文件。
5、当storefile文件过多,会触发compact操作,合并文件,生成Hfile。
6、当HFile文件大于阈值(默认10g),会触发split操作,新拆分的两个region会被master分发到对应的两个regionserver上。
-----------------------------------------------------------------------------------------------------------------------------------------------
注:0.96以上版本采用双层架构,删除了root表,只使用meta定位数据。meta表的一个region以12m来计算,可以定位16T的行键范围。如果1个行键范围包含10条数据,则有160T的数据,所以不需要root表。