NoSQL数据库——BigTable

在初学HBase时，自己将HBase中的名词类与MySQL数据库中的相对照着学，总是不理解HBase的数据结构及原理，追本溯源去看Google三大论文之BigTable，看到这部分觉得十分简单的表达了BigTable的结构，摘抄下来与大家分享。

BigTable作为一个NoSQL数据库，本文目的是帮助初学者理解列存数据库，与传统的关系型数据库不同，但是却沿用了很多关系型数据库的术语，例如table row column，若是将这些与关系型数据库中的概念对照着理解的话，很容易走火入魔，百思不得其解。

本质上看BigTable其实是一个键值对映射，是一个稀疏的，分布式的，持久化的，多维的排序映射。

BigTable有三维，分别是行键（row Key），列键（column key）和时间戳（timestamp），行键和列键都是字节串，时间戳是64位整型；值是一个字节串。

一条数据可以表示为：row：string，column：string，time：int64） -> string

行键可以是任意字节串，通常10-100字节，行的读写是原子性的，BigTable按照行键的字典序存储数据。

BigTable 的表根据row Key来划分 tablet（片剂），tablet是负载均衡的单元，最初表只有一个tablet，

随着表数据不断增多，表越来越大，tablet会自动分裂，tablet的大小一般在100-200M之间，row key是表的

第一级索引，我们可以把该行的列、时间和值看成一个整体，简化成一维键值映射，类似于

table{

"1":{row1},//行

"aaa":{sth},

"bbb":{sth},

"xxx":{sth},

"zzz":{sth}

}

列是第二级索引，每行拥有的列是不受限制的，可以随时增加减少，列又被分为多个列簇（column family，是访问

控制的单元），一般，一个列簇里面的列存储的是相同类型的数据。一行的列簇很少变化，但列簇里面的列可以随意添加和删除。列键按照family：qualifier格式命名，下面是将列拿出来，将时间和值看成一个整体，简化为二维键值映射：

table {

"aaa": { //aaa行

"A:foo":{sth}, //一列列簇名为A

"A:bar":{sth}, //一列列簇名为A

"B:"{STH} //一列列簇名为空

},

"aaab":{

"A:foo": {sth},

"B:":{sth}

},

...

}

或者也可以将列簇当作一层新的索引，类似于：

table{

"aaa":{

"A":{

"foo":{sth},

"bar":{sth}

},

"B":{

"":"ocean"

}

...

}

时间戳为第三极索引，BigTable允许保存数据的多个版本，版本区别依据就是时间戳。时间戳由BigTable赋值，

代表数据存入BigTable的准确时间，也可以由客户端赋值，数据的不同版本按照时间降序存储，因此，最先读到的

是最新版本的数据，加入时间戳以后，就得到BigTable的完整数据模型，类似于：

table{

...

"aaa": {

"A":{

"foo":{

15:"y", //一个版本

4:"m"

},

"bar":{

15:"d",

},

},

"B": {

6:"a"

3:"b"

}

...

}

查询的时候，若是只给出行列，则返回的是最新版本的数据，若给出行、列、时间戳，则返回的是时间小于或等于时间戳的数据。例：查询 "aaa"/"A:foo",返回的是值"y",查询 "aaa"/"A:foo"/4,返回的结果则是"m",查询"aaa"/"A:foo"/2，返回的结果是空

BigTable在Google的应用小例子：WebTable表中存储了大量的网页相关信息，在WebTable中每一行存储一个网页，

其反转的URL作为 rowKey，例如maps.google.com/index.html的数据存储在键为com.google.maps/index.html的行里面，反转设置的原因是为了让同一个域名下的子域名网页能聚集在一起，

NoSQL数据库——BigTable

推荐阅读更多精彩内容