前置知识点
行存储:适合插入
列存储:适合查询
存储格式
- textFile 文本
- sequenceFile二进制
- parquet 列式存储 二进制(自带索引)
- orc 格式 (最好)ORC不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储 (自带索引)
- avro 格式的文件 会产生一份scheam 信息,可以自动化建表
hive表的文件格式是如何指定的呢?
建表的时候通过==STORED AS 语法指定。如果没有指定默认都是textfile==。
行存储:适合插入
列存储:适合查询
建表的时候通过==STORED AS 语法指定。如果没有指定默认都是textfile==。