Hbase 批量导入

> 要导入大量数据,Hbase的BulkLoad是必不可少的,在导入历史数据的时候,我们一般会选择使用BulkLoad方式,我们还可以借助Spark的计算能力将数据快速地导入。

![](https://upload-images.jianshu.io/upload_images/9028759-df09619803f62d95.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

## 使用方法

1. 导入依赖包

```

compile group: 'org.apache.spark', name: 'spark-sql_2.11', version: '2.3.1.3.0.0.0-1634'

compile group: 'org.apache.spark', name: 'spark-core_2.11', version: '2.0.0.3.0.0.0-1634'

compile group: 'org.apache.hbase', name: 'hbase-it', version: '2.0.0.3.0.0.0-1634'

```

2. 创建好表与Family

```

create 'test_log','ext'

```

3. 编写核心代码

BulkLoad.scala

```

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf()

      //      .setMaster("local[12]")

      .setAppName("HbaseBulkLoad")

    val spark = SparkSession

      .builder

      .config(sparkConf)

      .getOrCreate()

    val sc = spark.sparkContext

    val datas = List(//模拟200亿数据

      ("abc", ("ext", "type", "login")),

      ("ccc", ("ext", "type", "logout"))

    )

    val dataRdd = sc.parallelize(datas)

    val output = dataRdd.map {

      x => {

        val rowKey = Bytes.toBytes(x._1)

        val immutableRowKey = new ImmutableBytesWritable(rowKey)

        val colFam = x._2._1

        val colName = x._2._2

        val colValue = x._2._3

        val kv = new KeyValue(

          rowKey,

          Bytes.toBytes(colFam),

          Bytes.toBytes(colName),

          Bytes.toBytes(colValue.toString)

        )

        (immutableRowKey, kv)

      }

    }

    val hConf = HBaseConfiguration.create()

    hConf.addResource("hbase-site.xml")

    val hTableName = "test_log"

    hConf.set("hbase.mapreduce.hfileoutputformat.table.name", hTableName)

    val tableName = TableName.valueOf(hTableName)

    val conn = ConnectionFactory.createConnection(hConf)

    val table = conn.getTable(tableName)

    val regionLocator = conn.getRegionLocator(tableName)

    val hFileOutput = "/tmp/h_file"

    output.saveAsNewAPIHadoopFile(hFileOutput,

      classOf[ImmutableBytesWritable],

      classOf[KeyValue],

      classOf[HFileOutputFormat2],

      hConf

    )

    val bulkLoader = new LoadIncrementalHFiles(hConf)

    bulkLoader.doBulkLoad(new Path(hFileOutput), conn.getAdmin, table, regionLocator)

  }

```

4. 提交Spark任务

```

spark-submit --master yarn --conf spark.yarn.tokens.hbase.enabled=true --class com.dounine.hbase.BulkLoad --executor-memory 2G --num-executors 2G --driver-memory 2G    --executor-cores 2 build/libs/hbase-data-insert-1.0.0-SNAPSHOT-all.jar

```

## 完整项目源码

[https://github.com/dounine/hbase-data-insert/blob/master/src/main/scala/com/dounine/hbase/BulkLoad.scala](https://github.com/dounine/hbase-data-insert)

---

![](https://upload-images.jianshu.io/upload_images/9028759-07315bb8dadcd082.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容

  • hbase的更新和删除,查询数据:1,首先编写一个hbase的工具类:/** HBase 工具类*/public ...
    会飞的蜗牛66666阅读 949评论 0 0
  • 一、Region 概念 Region是表获取和分布的基本元素,由每个列族的一个Store组成。对象层级图如下: T...
    达微阅读 1,490评论 0 1
  • 一、简介 Hbase:全名Hadoop DataBase,是一种开源的,可伸缩的,严格一致性(并非最终一致性)的分...
    菜鸟小玄阅读 2,369评论 0 12
  • 最近听了一个栏目感觉非常有意思,和大家分享,讨论一下。 在如今我们想知道哪个人比较出名,不用去问别人,上网上随便搜...
    雨菲yf阅读 489评论 4 3
  • Query DSL 简介 Elasticsearch提供了基于JSON的、完整的Query DSL(Domain ...
    歌哥居士阅读 285评论 0 1