本文是为了记录项目搭建一个可用的 Hbase镜像的过程,由于项目中还有独立的kafka和zookeeper, 所以不能使用常见的集成zk的Hbase镜像,故手动搭建了一个。本文记录在整个搭建过程的Bug。
最开始,在Docker hub 上面发现了一个镜像
它已经做了standalone模式的hbase,包含集成zk的版本以及外置zk的版本,所以首先尝试用他的这个镜像来实现,Docker-compose文件如下:
cat docker-compose.yml
# ...
zookeeper:
image: wurstmeister/zookeeper
expose:
- "2181"
logging:
driver: "none"
hbase:
image: pierrezemb/hbase-docker:standalone-1.3.1
links:
- zookeeper
logging:
driver: "none"
ports:
- "16010:16010"
expose:
- "8080"
- "9090"
- "16000"
- "16010"
- "16020"
- "16030"
command: ["/wait-for-it.sh", "zookeeper:2181", "-t", "10", "--", "/usr/bin/supervisord"]
# ...
为了能让远程客户端连接,我们把其他端口也做一个映射
启动后发现并不能连接,原因是在于 Hbase 的通信机制,其连接 Regionserver是通过Hostname:Port 的形式来连接的,zookeeper返回的地址就是(Hostname:Port:startID)的格式,可以在zk上面找到(list /hbase/rs)。因此如果我们使用的是Docker容器本身hostname,显然是无法通过客户端连接到Hbase的。
因此,为了能够正确的连接到 Habse, 首先应该配置正确的hostname, 我们知道通过docker run 的命令直接启动容器的时候,通过 -h hostname 参数就可以设置容器的hostname。 在Docker-compose文件中,我们可以直接设置hostname参数来控制。
这是如果通过 Java 客户端直接连接的话还是会发现无法连接,原因在于端口位置是错误的,可以通过上图发现 hbase为regionserver随机启动了一个端口,原因在于这个镜像版本启动的是standalone模式的hbase,在hbase的高版本的stabdalone模式端口是随机启动的,即便是在hbase-site.xml文件中配置hbase.regionserver.port或者hbase.master.port都是不行的,必须启动分布式模式才行。
由于这个版本的镜像是独立式的,所以必然会出现这个问题,只能重新搭建一个伪分布式版本的Hbase,其实现可以参考我的这个仓库。
在hbase-site.xml文件中,添加如下配置
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.regionserver.ipc.address</name>
<value>0.0.0.0</value>
</property>
<property>
<name>hbase.master.ipc.address</name>
<value>0.0.0.0</value>
</property>
与此同时,还必须在hbase-env.sh中专门设置JAVA_HOME。
重新构建镜像并启动后,就可以在 Hbase的WebUI上看到启动正确的端口号了,这时候就可以正常的通过 Java 客户端来连接我们的这个Hbase容器了。