Hive从入门到精通4:Hive基本原理介绍

1.Hive是什么?

Hive是一种大数据分析引擎,最早由Facebook公司发起的项目,2008年Facebook将Hive贡献给了Apache公司。Hive的本质是一种基于Hadoop的数据仓库,可以看成是Hadoop的另外一种实现方式。它定义了一种类SQL语言HiveQL(简称HQL),可以将HQL操作转换成MapReduce程序来执行,因此可以对存储在HDFS上的海量数据进行提取、转化、加载、存储、查询和分析等操作。Hive旨在为非专业程序员(如不懂Java和Python)提供一种高效的大数据分析方案,只要有SQL基础,就能使用Hive处理大数据。例如:最简单的WordCount程序(大数据领域的Helloworld程序),使用Java或者Python实现至少需要几十行甚至上百行代码,而使用Hive只需要几行代码即可。

2.Hive的体系结构

image

Hive提供了三种用户接口:

(1)命令行方式:Command Line Interface ( CLI ),是Hive最常用的操作方式,CLI启动的时候会同时启动一个Hive副本;

(2)API方式:JDBC/ODBC,使用Java或C++API通过Thrift Server连接到Hive Driver来操作Hive;

(3)Web方式:Web GUI,使用浏览器来访问和管理Hive。

Hive操作的数据是保存在HDFS上的,而这些数据的元信息是存储在数据库中的,默认是Hive自带的Derby数据库,也可以使用MySQL保存元信息,目前只支持这两种数据库。元信息包括表名、列名、分区、分桶、内部表、外部表等属性。

编译器、优化器、执行器完成HQL查询语句从词法分析、语法分析、编译、优化以及生成查询计划等一系列操作。生成的查询计划保存在HDFS上,并由MapReduce程序调用执行。

Hive的大部分查询都会触发一个MapReduce程序来执行,但是一些包括*号的查询,如Select * from table则不会触发MapReduce执行。

3.Hive和普通关系型数据库的异同

image

(1)HQL与SQL十分类似,熟悉SQL的开发人员可以快速上手Hive;

(2)Hive的数据存储在HDFS上,扩展性好(世界上最大的Hadoop集群在Yahoo,2009年的规模在4000台左右);RDBMS的数据存在本地文件系统中,扩展性差(最先进的并行数据库Oracle在理论上的扩展能力也只有100台左右);

(3)Hive没有自己的数据格式,数据格式都由用户指定,加载时不需要转换成某种既定的格式,加载速度快;RDBMS不同的数据库有不同的格式,加载数据时需要转换成对应的格式,比较耗时;

(4)Hive的特点是读多写少,不支持对数据的修改和添加,所有数据都是在加载时确定好的;RDBMS中的数据经常会增加、删除和修改;

(5)Hive没有索引,查找特定条件的数据时,需要暴力扫描整个数据,因此延迟比较高,不适合在线实时数据查询,但是由于使用MapReduce并发处理,所以可以对海量数据进行处理;RDBMS可以建立索引,加快查询效率,延迟低,适合在线查询,但是处理数据量有限;

(6)Hive中大多数查询可以触发MapReduce执行(类似select * from table不需要MapReduce);RDBMS使用自己的执行引擎;

4.Hive的执行流程

image

(1)客户端向Hive Driver发送一个查询请求

(2)Hive Driver向Compiler发送一个获取查询计划的请求

(3)Compiler去MetaStore中查询有无相应的数据

(4)MetaStore上如果有相应的数据,将该数据的元信息返回

(5)Compiler将查询计划和元信息一起返回给Driver

(6)Diver将查询计划和元信息发给Execution Engine执行,执行过程分为:1.将Hive操作转化成MapReduce作业发给Hadoop执行,并且同时还要与其他元数据进行交互;2.Hadoop执行完成后将结果在HDFS上的位置返回给Execution Engine;3.Execution Engine从HDFS上取得执行结果;

(7)Execution Engine将结果返回给Driver;

(8)Driver将结果返回给客户端,并等待用户交互。

5.Hive的数据类型

(1)基本数据类型

  • tinyint/smallint/int/bigint:整型
  • float/double:浮点型
  • boolean:布尔型
  • string:字符串类型

(2)复杂数据类型

  • Array:数组类型
  • May:集合类型
  • Struct:结构类型

(3)时间类型

  • Date:从Hive-0.12开始支持
  • timestamp:从Hive-0.8开始支持
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,941评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,397评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,345评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,851评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,868评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,688评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,414评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,319评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,775评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,945评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,096评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,789评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,437评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,993评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,107评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,308评论 3 372
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,037评论 2 355

推荐阅读更多精彩内容