用mapreduce的方式将csv格式文件格式化处理并写入HBase

将数据导入HBase的方式有很多,其中之一就是采用mapreduce来批量写入,最近所在的小组有这样的需求,大家又都还属于学习阶段,于是查阅了很多的资料(感谢http://www.cnblogs.com/dongdone/p/5689370.html的作者为我的第一次尝试提供了宝贵的经验),在这里做个记录,希望对想我一样的初学者有帮助。

要想做好这个事情大致要分4步:
1、在Hbase中创建一张表(我的表名叫做pn,要写入的列族的名字叫做gcf)
在hbase shell中执行一下命令:

*** a、create 'pn', 'gcf'***
2、上传要导入的csv到hdfs上面
a、在Linux命令行中执行:hadoop fs -put 2222.csv /inputDir
3、编写mapreduce程序:
我是用idea写的java代码,关于idea打包jar包的方式网上有很多,我就不说了,只是有一点要注意的是关于打包方式的,在yarn上运行代码的时候,yarn上是没有hbase的jar包的,所以打包jar的时候要把你工程所依赖的jar包也一并打包进生成的jar里。我打包的时候不是直接打包进去的,而是先打包一个只有class文件的jar包,然后在随便一个地方新建一个lib文件夹并将工程所依赖的jar包都放进去,然后用winrar打开生成的jar包,将lib文件夹拖进去,这样jar包就生成好。
还有一个要注意的就是我用的maven来构建工程,这里做依赖的有:

org.apache.hadoop
hadoop-common
2.7.2
org.apache.hadoop
hadoop-hdfs
2.7.2
org.apache.hadoop
hadoop-mapreduce-client-core
2.7.2
org.apache.hbase
hbase
1.2.0
org.apache.hbase
hbase-client
1.2.0
org.apache.hbase
hbase-common
1.2.0
org.apache.hbase
hbase-server
1.2.0

这是打包过程,代码在后面:


打包一个只有class文件的jar包

然后在随便一个地方新建一个lib文件夹并将工程所依赖的jar包都放进去

然后用winrar打开生成的jar包

这是生成好的jar的内容

我是代码:

packagecn.com.hbase;
importcn.com.utils.MD5;
importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.hbase.HBaseConfiguration;
importorg.apache.hadoop.hbase.client.Put;
importorg.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
importorg.apache.hadoop.hbase.mapreduce.TableOutputFormat;
importorg.apache.hadoop.hbase.mapreduce.TableReducer;
importorg.apache.hadoop.io.LongWritable;
importorg.apache.hadoop.io.NullWritable;
importorg.apache.hadoop.io.Text;
importorg.apache.hadoop.mapreduce.Job;
importorg.apache.hadoop.mapreduce.Mapper;
importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;
importjava.io.IOException;
/**
* Created by Asher on 2016/10/20.
*/
public classHdfsToHBase {
public static voidmain(String[] args)throwsException {
      Configuration conf = HBaseConfiguration.create();
conf.set("hbase.zookeeper.quorum","master01:2181,worker01:2181,worker02:2181");//当然这些都可以作为参数传入,这里只是实验,所以写死在了代码里,实际成产过程中肯定要用参数的方式
conf.set("hbase.rootdir","hdfs://master01:9000/hbase");
conf.set(TableOutputFormat.OUTPUT_TABLE,"pn");
Job job = Job.getInstance(conf,HdfsToHBase.class.getSimpleName());
TableMapReduceUtil.addDependencyJars(job);
job.setJarByClass(HdfsToHBase.class);
job.setMapperClass(HdfsToHBaseMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
job.setReducerClass(HdfsToHBaseReducer.class);
FileInputFormat.setInputPaths(job,"hdfs://master01:9000/inputDir/2222.csv");
job.setOutputFormatClass(TableOutputFormat.class);
job.waitForCompletion(true);
}
public static classHdfsToHBaseMapperextendsMapper {
privateTextoutKey=newText();
privateTextoutValue=newText();
@Override
protected voidmap(LongWritable key,Text value,Context context)throwsIOException,InterruptedException {
String[] splited = value.toString().split(",");
outKey.set(MD5.GetMD5Code(splited[0]));//我将第一个分片的MD5值作为rowkey
outValue.set(splited[1] +"\t"+ splited[2] +"\t"+ splited[3]);
context.write(outKey,outValue);
}
}
public static classHdfsToHBaseReducerextendsTableReducer {
@Override
protected voidreduce(Text k2,Iterable v2s,Context context)throwsIOException,InterruptedException {
Put put =newPut(k2.getBytes());
for(Text v2 : v2s) {
String[] splited = v2.toString().split("\t");
if(splited[0] !=null&& !"NULL".equals(splited[0])) {
put.add("gcf".getBytes(),"name".getBytes(),splited[0].getBytes());
}else{
put.add("gcf".getBytes(),"name".getBytes(), null);
}
if(splited[1] !=null&& !"NULL".equals(splited[1])) {
put.add("gcf".getBytes(),"sex".getBytes(),splited[1].getBytes());
}else{
put.add("gcf".getBytes(),"sex".getBytes(), null);
}
if(splited[2] !=null&& !"NULL".equals(splited[2])) {
put.add("gcf".getBytes(),"mobile".getBytes(),splited[2].getBytes());
}else{
put.add("gcf".getBytes(),"mobile".getBytes(), null);
}
}
context.write(NullWritable.get(),put);
}
}
}

4、打包并执行:打包在上面先说了,下面说说执行的过程:
a、很简单,在Linux终端执行:hadoop jar /home/cat/hdfs2hbase.jar cn.com.hbase.HdfsToHBase
就能正常运行了,运行的结果如下:

111.png

看到成功插入了数据

本次笔记结束!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,601评论 18 139
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 46,748评论 6 342
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,522评论 25 707
  • 我们经常能够看到这样的现象,一些人陡然从忙碌了一辈子的岗位上退下来之后,出现了诸多不适应,出现了焦虑、抑郁、悲哀、...
    番茄狂想阅读 337评论 4 5
  • 一叠策划规人生, 若含陌人需深思。 务实性质为首要, 白纸一层可平息。 当你的策划包含其他人的时候,这个时候要务实...
    萧修阅读 373评论 0 0