1.hive是什么?
Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。
简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。
2.hive的默认使用什么数据库?生产上我们一般用什么?
derby 生产上用mysql
3.hive的元数据存储在哪? 数据存储在哪?
mysql hdfs
4.hive的SQL语法和什么类似
mysql 类似
5.hive底层执行计算引擎是什么
Hive是搭建在Hadoop之上的一个SQL引擎,它把SQL转换成MapReduce在Hadoop上执行,底层存储采用HDFS,计算引擎当然是MapReduce了。不过现在Hive也支持设置计算引擎为spark和tez。
6.hive使用mysql做元数据存储,那么部署过程中,注意什么
防止mysql挂掉,生产上是要HA
驱动 URL 用户名 密码
7.接上题,配置文件里要哪些参数
url user driver password