Hive(二) 分区表、桶

分区表

Hive中没有复杂的分区类型(List,Range,Hash)、各种复合分区,分区列不是表中的实际字段而是一个伪列,创建表时可以指定PARTITION BY 子句创建一个或多个分区,每个分区在HDFS中会自动创建一个独立的文件夹。
分区键不能和列名同名,不然会报 "FAILED: Error in semantic analysis: Column repeated in partitioning columns,"
Hive中分区表分两类:静态分区、动态分区;

静态分区

Hive默认是静态分区,静态分区在插入数据时需要指定分区键值,好让数据插入指定分区中

CREATE TABLE IF NOT EXISTS part_person 
(
id string,
name string
)
PARTITIONED BY (date string)
STORED AS TEXTFILE;

insert into part_person PARTITION(date='2016-11-11')  values('2','ss1');
insert into part_person PARTITION(date='2016-11-13')  values('3','ss2');

动态分区

如果数据量很大,每条插入语句都要指定键值很麻烦,于是就有了动态分区,让Hive自动根据数据插入到指定分区内。

创建普通表,并插入测试数据
CREATE TABLE IF NOT EXISTS person (id int,name string,dt string,country string)  STORED AS TEXTFILE;
insert into person values(1,'dd','2016-11-11','jp');
insert into person values(2,'ee','2016-11-22','cn');
insert into person values(3,'gg','2016-11-14','jp');
insert into person values(4,'ff','2016-11-11','cn');
insert into person values(5,'tt','2016-11-22','jp');
insert into person values(6,'aa','2016-11-14','cn');
insert into person values(7,'bb','2016-11-11','cn');
insert into person values(8,'ss','2016-11-14','jp');
insert into person values(9,'gg','2016-11-11','cn');
insert into person values(10,'sr','2016-11-22','cn');
insert into person values(11,'4e','2016-11-11','jp');
insert into person values(12,'g5','2016-11-14','cn');
insert into person values(13,'1hg','2016-11-14','cn');
insert into person values(14,'haf','2016-11-22','jp');
insert into person values(15,'jhj','2016-11-14','cn');
insert into person values(16,'xc','2016-11-22','cn');
insert into person values(17,'nb','2016-11-11','jp');
insert into person values(18,'2ds','2016-11-22','jp');
insert into person values(19,'jse','2016-11-11','jp');
insert into person values(20,'ngh','2016-11-22','cn');
insert into person values(21,'aw4','2016-11-11','jp');
insert into person values(22,'4st','2016-11-14','cn');

创建一个有两个分区的分区表
CREATE TABLE IF NOT EXISTS person_d_p 
(id int,name string) 
PARTITIONED BY (dt string,country string) 
STORED AS TEXTFILE;
使用INSERT INTO SELECT 插入数据
hive> INSERT INTO person_d_p PARTITION(dt,country) SELECT * FROM person;

FAILED: SemanticException [Error 10096]: 
Dynamic partition strict mode requires at least one static partition column. 
To turn this off set hive.exec.dynamic.partition.mode=nonstrict

报错说明需要设置动态分区模式,使用动态分区需要设置以下参数:
hive.exec.dynamic.partition
默认值:false
使用动态分区必须设置为true

hive.exec.dynamic.partition.mode
默认值:strict
表示至少需要一个静态分区,一般使用nonstrict,既所有分区都是动态分区

hive.exec.max.dynamic.partitions.pernode
默认值:100
每个MR节点允许创建的最大分区数,如果实际的分区数超过设置的值会报错
Fatal error occurred when node tried to create too many dynamic partitions.

hive.exec.max.dynamic.partitions
默认值:1000
一个动态分区语句,在所有节点允许创建的最大分区数,同上

hive.exec.max.created.files
默认值:100000
所有节点可以创建的最大文件数,根据需要调整

根据需要设置参数

SET hive.exec.dynamic.partition=true; 
SET hive.exec.dynamic.partition.mode=nonstrict; 
SET hive.exec.max.dynamic.partitions.pernode=1000;
SET hive.exec.max.dynamic.partitions=10000;

INSERT INTO person_d_p PARTITION(dt,country) SELECT * FROM person;
显示所有分区
hive> show partitions person_d_p;
OK
dt=2016-11-11/country=cn
dt=2016-11-11/country=jp
dt=2016-11-14/country=cn
dt=2016-11-14/country=jp
dt=2016-11-22/country=cn
dt=2016-11-22/country=jp
Time taken: 0.034 seconds, Fetched: 6 row(s)

显示指定分区
hive> show partitions person_d_p partition(dt='2016-11-14',country='cn');
OK
dt=2016-11-14/country=cn

动态分区和静态分区还有一点区别就是静态分区不管有没有数据插入一定会创建分区,动态分区只有在插入数据的时候才创建分区;
动态分区会为每个分区创建一个reduce任务,当分区数比较多时,需要设置合理的mapred.reduce.tasks参数,以避免直接把集群搞挂掉

Hive允许对表和分区以bucket的形式进一步划分数据,这在对表进行JOIN操作和数据采样(sampling)时能获得较高的性能,如果两个表的JOIN字段都分桶了,在JOIN时将大大减少读取的数据量;可以对一个以上的列分桶,分桶的方式采用对列值HASH除以桶的个数求余来决定数据落在哪个桶里。

CREATE TABLE IF NOT EXISTS person_bkt
(
id int,
name string,
country string,
dt string
) 
CLUSTERED BY(country) SORTED BY (id) INTO 4 BUCKETS
STORED AS TEXTFILE;

创建桶时以CLUSTERED BY 子句指定字段,多个字段以逗号分隔;SORTED BY子句指定桶里的数据以哪个字段排序,默认为升序;INTO 指定分多少个桶。
需要注意的是,SORTED BY并不会在插入数据时进行排序,需要显式指定排序
加载数据需要开启下面参数,

set hive.enforce.bucketing=true;

向桶里载入数据,需要指定order by 子句,且排序字段与建表SORTED BY 字段一致

INSERT INTO person_bkt SELECT id,name,country,dt FROM person order by id;

查看hdfs目录,发现有4个文件

hive> dfs -ls /user/hive/warehouse/person_bkt;
Found 4 items
-rwxrwxrwt   3 root hive          0 2016-11-16 17:41 /user/hive/warehouse/person_bkt/000000_0
-rwxrwxrwt   3 root hive          0 2016-11-16 17:41 /user/hive/warehouse/person_bkt/000001_0
-rwxrwxrwt   3 root hive        200 2016-11-16 17:41 /user/hive/warehouse/person_bkt/000002_0
-rwxrwxrwt   3 root hive        239 2016-11-16 17:41 /user/hive/warehouse/person_bkt/000003_0

但是实际只有两个文件有数据,因为country字段只有两组数据‘cn’和‘jp’
查询数据,数据是以country分组,id升序排列

hive> select * from person_bkt;
OK
1   dd  jp  2016-11-11
3   gg  jp  2016-11-14
5   tt  jp  2016-11-22
8   ss  jp  2016-11-14
11  4e  jp  2016-11-11
14  haf jp  2016-11-22
17  nb  jp  2016-11-11
18  2ds jp  2016-11-22
19  jse jp  2016-11-11
21  aw4 jp  2016-11-11
2   ee  cn  2016-11-22
4   ff  cn  2016-11-11
6   aa  cn  2016-11-14
7   bb  cn  2016-11-11
9   gg  cn  2016-11-11
10  sr  cn  2016-11-22
12  g5  cn  2016-11-14
13  1hg cn  2016-11-14
15  jhj cn  2016-11-14
16  xc  cn  2016-11-22
20  ngh cn  2016-11-22
22  4st cn  2016-11-14
Time taken: 0.03 seconds, Fetched: 22 row(s)

桶数据抽样

分桶之后怎么查?Hive提供了tablesample关键字进行数据抽样,可以对桶里的数据进行抽样查询

select * from person_bkt tablesample (bucket 2 out of 4 on id);

2代表从第几个桶开始,4代表取多少个桶,必须是桶总数的倍数,可以使用desc formatted tablename 查看表的桶数量,详细的抽样查询在后面介绍。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,194评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,058评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,780评论 0 346
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,388评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,430评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,764评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,907评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,679评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,122评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,459评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,605评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,270评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,867评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,734评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,961评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,297评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,472评论 2 348

推荐阅读更多精彩内容