Hudi 使用之 HBase Index

前言

Hudi索引可以加快upsert过程中查询数据物理位置(存储于哪个file group)。Hudi支持多种Index。本篇为大家介绍使用HBase作为Index存储媒介的方式。

注意:经过本人验证Hudi使用HBase存在诸多限制而且存在较多问题。目前不推荐生产环境使用。

环境信息

  • Hudi 0.14.0
  • Spark 3.3.0
  • HBase 2.4.9
  • HDFS 3.1.1

环境准备

编译hudi

默认情况HBase依赖的hadoop-hdfs-client为hadoop2.x,直接拿来编译hudi spark bundle使用时候会出现java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.client.HdfsDataInputStream.getReadStatistics()L错误。所以需要提前编译并install带有3.x版本hadoop-hdfs-client的HBase依赖包再去编译Hudi。参见:https://github.com/apache/hudi/pull/6756/files/6923a9acb4872305ffbba1e0b2b1546bae8d0070

首先需要编译HBase。执行:

git clone https://github.com/apache/hbase

进入源代码目录后checkout 2.4.9 tag。

git checkout rel/2.4.9

最后执行如下命令编译HBase:

mvn clean install -Denforcer.skip -DskipTests -Dhadoop.profile=3.0 -Psite-install-step

到这里HBase编译完毕。接下来编译Hudi。

git clone https://github.com/apache/hudi.git
cd hudi

编辑项目根目录的pom.xml文件去掉HBase的relocation。

修改maven-shade-plugin插件的配置。注释掉如下部分:

            <!-- hbase -->
<!--
            <relocation>
              <pattern>org.apache.hadoop.hbase.</pattern>
              <shadedPattern>org.apache.hudi.org.apache.hadoop.hbase.</shadedPattern>
              <excludes>
                <exclude>org.apache.hadoop.hbase.KeyValue$KeyComparator</exclude>
              </excludes>
            </relocation>
            <relocation>
              <pattern>org.apache.hbase.</pattern>
              <shadedPattern>org.apache.hudi.org.apache.hbase.</shadedPattern>
            </relocation>
            <relocation>
              <pattern>org.apache.htrace.</pattern>
              <shadedPattern>org.apache.hudi.org.apache.htrace.</shadedPattern>
            </relocation>
-->

经本人测试,如果不去掉这些relocation,连接HBase region server的时候会出现Connection Closed错误。社区并不推荐这么做,这么做目前带来的问题未知。

执行如下命令编译:

mvn clean package -Dflink1.15 -Dscala2.12 -Dspark3.3 -DskipTests -Pflink-bundle-shade-hive3 -T 4 -Denforcer.skip

准备好编译完成的hudi-spark-bundle,位于packaging/hudi-spark-bundle/target/hudi-spark3.3-bundle_2.12-0.14.0.jar

部署HBase 2.4.9

必须使用HBase 2.4.9。本人测试了Hudi编译的时候修改HBase版本为2.2.7和2.4.17,前者缺少必须的类编译失败,后者运行时出现ClassNotFound问题(relocation相关)。

下载并解压HBase 2.4.9到任意目录。下载地址为:https://archive.apache.org/dist/hbase/2.4.9/

修改如下配置文件(位于conf目录):

hbase-env.sh

export HBASE_MANAGES_ZK=false
export JAVA_HOME=/usr/jdk64/java

这里不适用HBase内嵌的Zookeeper。使用独立部署的Zookeeper。

hbase-site.xml

<configuration>
  <property>
    <name>hbase.tmp.dir</name>
    <value>./tmp</value>
  </property>
  <property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value>
  </property>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://hdfs_ip:8020/hbase24</value>
  </property>
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>zookeeper.znode.parent</name>
    <value>/hbase</value>
  </property>
    <name>hbase.zookeeper.quorum</name>
    <value>zk_ip</value>
  <property>
   <name>hbase.master.info.port</name>
   <value>16010</value>
  </property>
  <property>
   <name>hbase.master.port</name>
   <value>16000</value>
  </property>
  <property>
   <name>hbase.regionserver.info.port</name>
   <value>16030</value>
  </property>
  <property>
   <name>hbase.regionserver.port</name>
   <value>16020</value>
  </property>
</configuration>

regionservers文件需要配置region server所在节点。

最后执行start-hbase.sh启动HBase集群。

确保HBase的能够有权读写HDFS中的数据存放目录。在该例子中为hdfs://hdfs_ip:8020/hbase24

部署Spark Hudi

参考Spark 使用之操作Hudi表

写入数据Hudi表

创建HBase存放索引的表

使用HBase作为索引存储之前,需要先创建出索引表。

例如我们的索引表叫做hudi_mor_tbl_shell,进入HBase shell,执行:

create "hudi_mor_tbl_shell", "_s"

写入Hudi表数据

Hudi使用HBase索引表存在一些问题。按照社区提示参考如下链接:https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-considerations.html。可执行成功。

使用如下命令进入Spark shell:

./spark-shell --jars /opt/zy/hudi-hbase/*.jar --conf "spark.serializer=org.apache.spark.serializer.KryoSerializer" --conf "spark.sql.hive.convertMetastoreParquet=false"

进入Spark shell之后,执行如下代码插入示例数据:

import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._

import org.apache.spark.sql._
import org.apache.spark.sql.types._

import org.apache.hudi.config.HoodieHBaseIndexConfig._
import org.apache.hudi.config.HoodieIndexConfig._
val fields = Array(
      StructField("id", IntegerType, true),
      StructField("name", StringType, true),
      StructField("price", DoubleType, true),
      StructField("ts", LongType, true)
  )
val simpleSchema = StructType(fields)
val data = Seq(Row(2, "a2", 200.0, 100L))
val df = spark.createDataFrame(data, simpleSchema)
df.write.format("hudi").
  option(PRECOMBINE_FIELD_OPT_KEY, "ts").
  option(RECORDKEY_FIELD_OPT_KEY, "id").
  option(TABLE_TYPE_OPT_KEY, "MERGE_ON_READ").
  option(INDEX_TYPE.key(), "HBASE").
  option(ZKPORT.key(), "2181").
  option(TABLENAME.key(), "hudi_mor_tbl_shell").
  option(ZK_NODE_PATH.key(), "/hbase-unsecure").
  option(ZKQUORUM.key(), "zk_ip").
  option(TABLE_NAME, "hudi_mor_tbl_shell").
  option(QPS_FRACTION.key(), 0.5).
  option(QPS_ALLOCATOR_CLASS_NAME.key(), "org.apache.hudi.index.hbase.DefaultHBaseQPSResourceAllocator").
  option(MAX_QPS_PER_REGION_SERVER.key(), 1000).
  mode(Append).
  save("hdfs:///hudi/hudi_mor_tbl_shell")

其中涉及HBase索引表的配置为:

  • INDEX_TYPE.key(): 值为HBASE表示使用HBase索引类型。
  • TABLENAME.key():HBase索引表名。不要和TABLE_NAME弄混。这个是Hudi表本身的名字。
  • ZKQUORUM.key():存放HBase节点信息的Zookeeper地址。
  • ZKPORT.key():Zookeeper的端口号。
  • ZK_NODE_PATH.key():HBase信息在Zookeeper中的parent path。
  • QPS相关配置:用于访问HBase限流。

按照本篇的配置方式,到这一步Hudi表数据应能够成功插入。

查看HBase索引表内容

上一步Hudi表数据对应的HBase索引数据都写入成功。可以使用如下方式查看索引表中的数据:

hbase:001:0> scan "hudi_mor_tbl_shell"
ROW                                 COLUMN+CELL
 2                                  column=_s:commit_ts, timestamp=2023-11-27T18:03:13.225, value=20231127180307879
 2                                  column=_s:file_name, timestamp=2023-11-27T18:03:13.225, value=0c550d74-eeb3-4b58-92c5-c39504fb910b-0
 2                                  column=_s:partition_path, timestamp=2023-11-27T18:03:13.225, value=
1 row(s)

可以发现HBase索引表存放了Hudi record key和提交时间(commit_ts),文件名(file_name)和分区路径(partition_path)的对应关系。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容