HBase简介

1.HBase起源

HBase是一个开源的非关系型分布式数据库,参考了谷歌的BigTable建模,实现的编程语言为Java。运行于HDFS文件系统之上,为Hadoop提供类似于BigTable规模的服务。因此,它可以容错的存储海量稀疏的数据。

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。Habse的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和百万列元素组成的数据表。

1.1关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase?

  • Hadoop可以很好的解决大规模数据的离线批量处理问题,但是,受限于HadoopMapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求。
  • HDFS面向批量访问模式,不是随机访问模式
  • 传统的关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好的解决)
  • 传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间。

1.2HBase与传统的关系数据库的区别主要体现在以下几个方面:

  1. 数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式,HBase则采用了更加简单的数据模型,它把数据存储为未经解释的字符串
  2. 数据操作:关系数据库中包含了丰富的数据操作,其中会涉及复杂的多表连接。HBase操作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂的表与表之间的关系。

3.HBase数据模型

表:HBase采用表来组织数据,表由行和列组成,列划分为若干列族。
行:每个HBase表都由若干行组成,每个行由行键(row key)来标识。
列族:一个HBase表被分成许多“列族”(Column Family)的集和,它是基本的访问控制单元。
列限定符:列族里的数据通过限定符(或列)来定位。
单元格:在HBase表中,通过行、列族和列限定符确定一个“单元格”,单元格中存储的数据没有数据类型,总被视为字节数组byte[]
时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引。

4.HBase的实现原理

HBase的实现包括三个主要的功能组件:

  • 1、库函数:链接到每个客户端
  • 2、一个Master主服务器
  • 3、许多个Region服务器

主服务器Master负责管理和维护HBase表的分区信息,维护Region服务器列表,分配Region,负载均衡。

Region服务器负责存储和维护分配给自己的Region,处理来自客户端的读写请求。

客户端并不是直接从Master主服务器上读取数据,而是在获得Region的存储位置信息后,直接从Region服务器上读取数据。

客户端并不依赖Master,而是通过Zookeeper来获取Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。

4.1 表和Region

一个HBase表被划分成多个Region。按照行键字典序进行排序。

开始只有一个Region,后台不断分裂。Region拆分操作非常快,接近瞬间,因为拆分之后Region读取的仍然是原存储文件,知道“合并”过程把存储文件异步地写到独立的文件之后,才会读取新文件。

4.2Region的定位

元数据表,又名.META.表,存储了Region和Region服务器的映射关系。当HBase表很大时,.META.表也会被分裂成多个Region

根数据表,又名-ROOT-表,记录所有元数据的具体位置,-ROOR-表只有唯一一个Region,名字是在程序中被写死的。Zookeeper文件记录了-ROOT-表的位置。

客户端访问数据时的“三级寻址”

  • 为了加速寻址,客户端会缓存位置信息,同时,需要解决缓存失效的问题。
  • 寻址过程客户端只需要询问Zookeeper服务器,不需要连接Master服务器。

5.HBase系统架构

Client

  • 包含访问HBase的接口并维护cache来加快对HBase的访问

Zookeeper

  • 保证任何时候,集群中只有一个Master
  • 存储所有Region的寻址入口
  • 实时监控Region Server的上线和下线信息。并实时通知Master
  • 存储HBase的schema和table元数据

Master

  • 为Region Server分配Region
  • 负责Region Server的负载均衡
  • 发现失效的Region Server并重新分配其上的Region
  • 管理用户对table的增删改操作

Region Server

  • Region Server维护Region,处理对这些Region的IO请求
  • Region Server负责切分在运行过程中变得过大的Region

HLog(WAL log)

  • HLog文件就是一个普通的Hadoop Sequence File,Sequence File的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括sequence number和timestamp,timestamp是“写入时间”,sequence number的起始值为0,或者是最近一次存入文件系统中sequence number。
  • HLog Sequence File 的Value 是 HBase的KeyValue对象,即对应HFile中的KeyValue

Region

  • HBase自动把表水平划分成多个区域(Region),每个Region会保存一个表里面某段连续的数据;每个表开始只有一个Region,随着数据不断地被插入表,Region不断增大,当增大到一个阈值时,Region就会等分为两个新的Region(列表);
  • 当table中的行不断增多,就会有越来越多的Region。这样一张完整的表就会被保存在多个Region Server上。

Memstore与storefile

  • 一个Region由多个Store组成,一个Store对应一个CF(列族)
  • Store包括位于内存中的memstore和位于磁盘的storefile,写操作先写入memstore,当memstore中的数据达到某个阈值,Region Server会启动flashcache 进程写入storefile,每次写入形成单独的一个storefile
  • 当storefile文件的数量增长到一定阈值后,系统会进行合并(minor、major compaction),在合并过程中会进行版本合并和删除工作(majar)形成更大的storefile。
  • 当一个Region所有storefile的大小超过一定阈值后,会把当前的Region分割为两个,并由Master分配到相应的Region Server,实现负载均衡。
  • 客户端检索数据,现在memsotre找,找不到再找storefile
  • Region时HBase分布式存储和负载均衡的最小单元。
  • Region由一个或者多个Store组成,每个Stroe保存一个列族
  • 每个Store又由一个memstore和0至多个storefile组成
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,110评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,443评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,474评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,881评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,902评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,698评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,418评论 3 419
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,332评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,796评论 1 316
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,968评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,110评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,792评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,455评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,003评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,130评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,348评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,047评论 2 355

推荐阅读更多精彩内容

  • Mahout:机器学习的基本库 Zookeeper:分布式协作服务 Flume:日志收集工具 Sqoop:关系数据...
    南宫萧言阅读 821评论 0 1
  • 1.Hbase起源 HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言...
    Michaelhbjian阅读 74,895评论 2 28
  • HBase是Hadoop 的正式子项目,它是一个面向列的分布式数据库。是建立的hdfs之上,提供高可靠性、高性能、...
    我是嘻哈大哥阅读 835评论 0 1
  • 一、简介 Hbase:全名Hadoop DataBase,是一种开源的,可伸缩的,严格一致性(并非最终一致性)的分...
    菜鸟小玄阅读 2,388评论 0 12
  • 一、HBase简介 Hbase是什么 HBase是一种构建在HDFS之上的分布式、面向列、多版本、非关系型的数据库...
    便利蜂数据平台阅读 979评论 0 4