[LakeHouse] 数据湖之Iceberg一种开放的表格式

欢迎关注公众号“Tim在路上”
今天来闲谈下数据湖三剑客中的iceberg。

Iceberg项目2017年由Netflix发起，它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者Ryan Blue创建Tabular公司，发起以Apache Iceberg为核心构建一种新型数据平台。

Ryan Blue 认为我们不是齿轮——我们是工匠，Iceberg的哲学的核心是让人们快乐：**数据基础设施应该在没有令人不快的意外的情况下工作。

Iceberg最初的功能相比Delta或Hudi少一些，但是得益于底层架构接口设计的优雅通用，因此其较早的实现了Flink的读写，在国内也获得了不少的关注。今天就来谈下Iceberg的优势与原理。

Hive数仓遇到的问题

首先我们回到Ryan Blue创建Iceberg的原因。起初是认识到数据的组织方式（表格式）是许多数据基础设施面临挫折和问题的共同原因——这些问题因Netflix运行在 S3上的云原生数据平台而加剧。

例如如果没有原子提交，对 Hive 表的每次更改都会冒着其他地方出现正确性错误的风险，因此自动化的修复问题也就是白日梦，很多维护工作留给了数据工程师，让人不快乐。

所以说在Iceberg创建初期，它最核心希望解决的是Hive数仓遇到的问题。

1ed.png

具体来说，主要包括下面这些问题：

没有acid保证，无法读写分离
只能支持partition粒度的谓词下推
确定需要扫描哪些文件时使用文件系统的list操作
partition字段必须显式出现在query里面

1. 没有acid保证

由于Hive数仓只是文件系统上一系列文件的集合（单纯的采用目录方式进行管理），而数据读写只是对文件的直接操作，没有关系型数据库常有的事务概念和acid保证，所以会存在脏读等问题。

2. partition粒度的谓词下推

Hive的文件结构只能通过partition和bucket对需要扫描哪些文件进行过滤，无法精确到文件粒度。所以尽管parquet文件里保存了max和min值可以用于进一步的过滤（即谓词下推），但是Hive却无法使用。

3. 文件系统的list操作

Hive在确定了需要扫描的partition和bucket之后，对于bucket下有哪些文件需要使用文件系统的list操作，而这个操作是O(n)级别的，会随着文件数量的增加而变慢。特别是对于像s3这样的对象存储来说，一次list操作需要几百毫秒，每次只能取1000条记录，对性能的影响无法忽略。

4. query需要显式地指定partition

在 Hive 中，分区需要显示指定为表中的一个字段，并且要求在写入和读取时需要明确的指定写入和读取的分区。Iceberg将完全自行处理，并跳过不需要的分区和数据。在建表时用户可以指定分区，无需为快速查询添加额外的过滤，表布局可以随着数据或查询的变化而更新。

11ed.png

在上述例子中，Hive 表并不知道event_date 和event_time的对应关系，需要用户来跟踪。

而在 Iceberg 中将分区进行隐藏，由 Iceberg 来跟踪分区与列的对应关系。在建表时用户可以指定date(event_time) 作为分区， Iceberg 会保证正确的数据总是写入正确的分区，而且在查询时不需要手动指定分区列，Iceberg 会自动根据查询条件来进行分区裁剪。

一种开放的表格式

上面讲了创建Iceberg最初想要解决的问题，下面我们说下Iceberg的定位是什么，以及它在数据湖架构中的位置。

Iceberg 的核心开发者Ryan Blue，将Iceberg定义为一种开放式的表格式为大数据分析，它的定位是在计算引擎之下，又在存储之上，将其称之为table format。

在大数据时代数据的存储格式早已经发生了翻天覆地的变化，从最初的txt file , 到后来的Sequence file , rcfile以及目前的parquet、orc 和 avro 等数据存储文件。数据的存储有了更好的性能、更高的压缩比，但是对于数据的组织方式依然没有太大的变化。目前Hive对于数据组织的方式任然是采用文件目录的方式进行组织方式，这种组织方式面临上一节中遇到的问题。

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.

2ed.png

从上图可以看出，Iceberg是在HDFS或S3存储引擎上的又一层，用于管理在存储引擎中的Parquet、ORC和avro等压缩的大数据文件，使这些文件更便于管理维护，同时为其构造出相应的元数据文件。其上层是对接用于计算的Spark、Presto和Flink等计算引擎，并为其提供灵活的可插拔性。

自下而上的元数据

那么Iceberg是如何组织数据与元数据的呢？

3ed.png

在数据存储层面上，Iceberg是规定只能将数据存储在Parquet、ORC和Avro文件中的。像 Parquet 这样的文件格式已经可以读取每个数据文件中的列子集并跳过行。

因此，如果可以跟踪表中的每个数据文件，分区和列级指标的主要信息，那么就可以根据数据文件的统计信息来更有效的进行Data skip。

在Iceberg中对于每个数据文件，都会存在一个manifest清单文件来追踪这个数据文件的位置，分区信息和列的最大最小，以及是否存在 null 或 NaN 值等统计信息。每个清单都会跟踪表中的文件子集，以减少写入放大并允许并行元数据操作。

每个清单文件追踪的不只是一个文件，在清单文件中会为每个数据文件创建一个统计信息的json存储。这样可以使用这些统计信息检查每个文件是否与给定的查询过滤器匹配，如果当前查询的信息并不在当前数据的范围内，还可以实现File skip，避免读取不必要的文件。

如下图所示，每个清单文件追踪多个数据文件，这样的优点是减少了元数据小文件的生成，同时可以允许跳过整个清单文件以及其关联的数据文件。

manifest-1.avro

在元数据层面上，Iceberg 将某个版本或快照的清单文件存贮在清单文件列表中，即manifest-list中。其是manifest-list并不是单独的文件，而是snapshot快照文件中的一个list。

从manifest-list清单文件列表中读取清单时，Iceberg 会将查询的分区谓词与每个分区字段的值范围进行比较，然后跳过那些没有任何范围重叠的清单文件。元数据中的min-max索引对查找查询文件所需的工作量产生了巨大影响。当表增长到数十或数百 PB 时，可能会有数 GB 的元数据，如果对元数据进行暴力扫描将需要长时间的等待作业——相反，使用min-max索引构建的元数据存储使得Iceberg 会跳过大部分。

snapshot-1-manifest-list.avro

回过头来，我们在来看下Iceberg在其中是如何维护分区信息的。

Iceberg和Hive不同的是，Iceberg不是通过list出目录来跟踪分区和定位文件的。从上面的元数据文件可以看出，Iceberg的清单文件中会记录每个数据文件所属的分区值信息，同时在清单列表中会记录每个清单文件的分区信息。除此以外在Iceberg的数据文件中也会存储分区列的值，以进行自动分区转换的实现。

总而言之，Iceberg采用的是直接存储分区值而不是作为字符串键，这样无需像 Hive 中那样解析键或 URL 编码值，同时利用元数据索引来过滤分区选择数据文件。

综上，每次进行数据的增删改都会创建一系列的Data file 或 Delete file数据文件, 同时会生成多个追踪和记录每个数据文件的manifest file清单文件，每个清单文件中可能会记录多个数据文件的统计信息；这些清单文件会被汇总记录到snapshot文件中的manifest list清单文件列表中，同时在快照文件中记录了每个清单文件的统计信息，方便跳过整个清单文件。而每次操作都会重新复制一份metadata.json 的元数据文件，文件汇总了所有快照文件的信息，同时在文件中追加写入最新生成的快照文件。

高性能的查询

Iceberg表格式的最主打的卖点正是其更快的查询速度。

在Iceberg中自上而下实现了三层的数据过滤策略，分别是分区裁剪、文件过滤和RowGroup过滤。

分区剪裁：对于分区表来说，优化器可以自动从where条件中根据分区键直接提取出需要访问的分区，从而避免扫描所有的分区，降低了IO请求。Iceberg支持分区表和隐式分区技术，所以很自然地支持分区裁剪优化。

如上一节所示，Iceberg实现分区剪枝并不依赖文件所在的目录，而是利用了Iceberg特有的清单文件实现了一套更为复杂的分区系统及分区剪枝算法，名为Hidden Partition。首先每个snapshot中都存储所有manifest清单文件的包含分区列信息，每个清单文件每个数据文件中存储分区列值信息。这些元数据信息可以帮助确定每个分区中包含哪些文件。

这样实现的好处是：1. 无需调用文件系统的list操作，可以直接定位到属于分区的数据文件。2. partition的存储方式是透明的，用户在查询时无需指定分区，Iceberg可以自己实现分区的转换。3. 即使用户修改分区信息后，用户无需重写之前的数据。

文件过滤：Iceberg提供了文件级别的统计信息，例如Min/Max等。可以用where语句中的过滤条件去判断目标数据是否存在于文件中。

Iceberg利用元数据中的统计信息，通过Predicate PushDown(谓词下推)实现数据的过滤。

在讲Iceberg前我们先来说下Spark是如何实现谓词下推的：

在SparkSQL优化中，会把查询的过滤条件，下推到靠近存储层，这样可以减少从存储层读取的数据量。其次在真正读取过滤数据时，Spark并不自己实现谓词下推，而是交给文件格式的reader来解决。例如对于parquet文件，Spark使用PartquetRecordReader或VectorizedParquetRecordReader类来读取parquet文件，分别对于非向量化读和向量化的读取。在构造reader类时需要提供filter的参数，即过滤的条件。过滤逻辑稍后由RowGroupFilter调用，根据文件中块的统计信息或存储列的元数据验证是否应该删除读取块。（Spark在3.1 支持avro, json, csv的谓词下推）

相比于Spark, Iceberg会在snapshot层面，基于元数据信息过滤掉不满足条件的data file。

RowGroup过滤：对于Parquet这类列式存储文件格式，它也会有文件级别的统计信息，例如Min/Max/BloomFiter等等，利用这些信息可以快速跳过无关的RowGroup，减少文件内的数据扫描。

Iceberg在data file层面过滤掉不满足条件的RowGroup。这一点和Spark实际是类似的，但是作为存储引擎的Iceberg，他使用了parquet更偏底层的ParquetFileReader接口，自己实现了过滤逻辑。

Iceberg通过调用更底层的API, 可以直接跳过整个RowGroup, 更进一步的减少了IO量。

今天我们先简单介绍了Iceberg, 后续再通过源码去了解Iceberg是如何实现upsert, delete 以及如何与Spark进行整合的。

最后编辑于：2022.06.17 22:13:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,240评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,328评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,182评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,121评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,135评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,093评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,013评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,854评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,295评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,513评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,678评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,398评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,989评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,636评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,801评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,657评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,558评论 2赞 352

[LakeHouse] 数据湖之Iceberg一种开放的表格式

Hive数仓遇到的问题

一种开放的表格式

自下而上的元数据

高性能的查询

推荐阅读更多精彩内容