hadoop入门五步走

入门五步走

第一步 安装hadoop集群

可以浏览w3c的描述,熟悉hadoop的概念
https://www.w3cschool.cn/hadoop/

第三步 操作操作
*1、 直接在服务端操作使用hadoop命令做一些操作

给出一个文件上传到hdfs和下载到本地的example

# 1st  在本地新建一个文件
[root@node21 admin]# cat wc.txt 
a,1 b,1 b,5
a,3 c,3 d,15 e,11
a,2 d,2
# 2st 在hadoop上创建一个目录,用于存放该文件
[root@node21 admin] hadoop fs -mkdir -p  /user/input
可以看到hadoop的fs命令下,有很多和linux命令相似的地方,无聊可以help看哈
root@node21 admin]# hadoop fs --help
--help: Unknown command
Usage: hadoop fs [generic options]
    [-appendToFile <localsrc> ... <dst>]
    [-cat [-ignoreCrc] <src> ...]
    [-checksum <src> ...]
    [-chgrp [-R] GROUP PATH...]
    [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
    [-chown [-R] [OWNER][:[GROUP]] PATH...]
    [-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
    [-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
    [-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
    [-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
    [-createSnapshot <snapshotDir> [<snapshotName>]]
.................省略一堆堆
# 3st 上传到该目录
[root@node21 admin]hadoop fs -put ~/wc.txt  /user/input
# 4st 查看是否已经存在该文件
[root@node21 admin]# hadoop fs -ls /user/input
-rw-r--r--   2 admin supergroup         38 2019-03-30 08:41 /user/input/wc.txt
#5st  ok接下来下载到本地并查看
[root@node21 admin]# hadoop fs -get /user/input/wc.txt /home/
admin/  hadoop/ xzg/    
[root@node21 admin]# hadoop fs -get /user/input/wc.txt /home/
[root@node21 admin]# ls /home/
wc.txt  
### 就酱。 
  • 2、运行一个hadoop的简单事例,了解map-reduce机制
    先给出命令,运行该命令是注意要使用hadoop用户,就是配置hadoop的用户

hadoop jar /opt/hadoop3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar wordcount /user/input/word.txt /user/output

上面hadoop jar 运行jar包,hadoop-mapreduce-examples-3.1.1.jar这个jar就是hadoop自己提供的,这里面有很多简单的例子(有兴趣可以解压或者官网或者到github查看相关源码),wordcount 就是其中一个。这里我们指定运行wordcount例子(用于计算单词数量)
输入路径:/user/input/word.txt 是要我们自己编写文件上传到hdfs的/user/input路径下。内容可参考

[admin@node21 ~]$ hadoop fs -cat /user/input/word.txt
i love you

/user/output是我们指定输出的结果路径
执行结果如下(part-r-00000是默认结果生产的文件,可以hadoop fs -ls /user/outpu查看):

[admin@node21 ~]$ hadoop fs -cat /user/output/part-r-00000
i   1
love    1
you 1

第四步 本地开发

我这里使用的idea,作为本地开发工具

  • 1st 首先需要导入相关jar包,jar来源就是下载hadoop后解压后的share文件里(具体以个人,不过主要common、hdfs、mapreduce、yarn这几个包下的)


    图片.png
  • 2st 将hadoop服务端的配置文件,加入项目src目录下。项目启动时会使用到,否则会报错

图片.png
  • 3st 开发前需要配置开发环境的hadoop的path


    图片.png
windows本地运行mr程序时(不提交到yarn,运行在jvm靠线程执行),hadoop.dll防止报nativeio异常、winutils.exe没有的话报空指针异常。

所以我们需要额外添加这winutils.exe到你本地hadoop的bin目录下,
(github下载地址)[https://github.com/steveloughran/winutils] 根据服务端及本地hadoop版本选择,不过我使用3.1的选择的3.0版本

  • 4st 一个简单的测试连接服务端hdfs类
public class Chapter3 {

    public static void main(String[] args) {
        try {
            String filename = "hdfs://10.11.91.225:9000/user/input/data.txt";
            Configuration conf = new Configuration();
            conf.set("fs.defaultFS", "hdfs://10.11.91.225:9000");
//            conf.set("mapreduce.jobtracker.address", "10.11.91.255:9000");
            // 这个解决hdfs问题
            conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
            // 这个解决本地file问题
            conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());
            FileSystem fs = FileSystem.get(conf);
            if(fs.exists(new Path(filename)))
            {
                System.out.println("文件存在");
//                fs.
            }else{
                System.out.println("文件不存在");
            }
        } catch (Exception e)
        {
            e.printStackTrace();
        }
    }
}

上面代码本地开发环境和远程服务的连通测试

  • 3st 编写一个任务,从本地开发环境丢到hadoop集群上运行(这是一个计算单词key,合并value的例子)
    先写个文件丢到hdfs上
[admin@node21 ~]$ hadoop fs -cat /user/input/wc.txt
a,1 b,1 b,5
a,3 c,3 d,15 e,11
a,2 d,2

预期我们想要的结果如下:

a   6
b   6
c   3
d   17
e   11

代码实现,主要三个类

  1. WordCountMapper 类用于split和map阶段
// //这个Mapper类是一个泛型类型,它有四个形参类型,分别指定map函数的输入键、输入值、输出键、输出值的类型
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    //该方法循环调用,从文件的split中读取每行调用一次,把该行所在的下标为key,该行的内容为value
    protected void map(LongWritable key, Text value,
                       Context context)
            throws IOException, InterruptedException {
        String[] words = StringUtils.split(value.toString(), ' ');
        for(String w :words){
            //a,1 a,2 重新组装a:1 a:2
            String[] kevs = w.split(",");
            context.write(new Text(kevs[0]), new IntWritable(Integer.valueOf(kevs[1])));
        }
    }
}
  1. WordCountReducer类用于Shuffle和reduce阶段
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    //每组调用一次,这一组数据特点:key相同,value可能有多个。
    protected void reduce(Text arg0, Iterable<IntWritable> arg1,
                          Context arg2)
            throws IOException, InterruptedException {
        //增加所有的值
        int sum =0;
        for(IntWritable i: arg1){
            sum=sum+i.get();
        }
        arg2.write(arg0, new IntWritable(sum));
    }
}
  1. RunJob类为程序的入口和job的设置
public class RunJob {

    public static void main(String[] args) {
        Configuration config =new Configuration();
//        config.set("fs.defaultFS", "hdfs://HadoopMaster:9000");
        config.set("fs.defaultFS", "hdfs://10.11.91.225:9000");
        //node22为hadoopyarn-site.xml中的配置
        config.set("yarn.resourcemanager.hostname", "node22");
        //设置执行的用户,需要是服务端的hadoop用户,否则无权限执行,报错.AccessControlException: Permission denied
        System.setProperty("HADOOP_USER_NAME", "admin");
//    config.set("mapred.jar", "C:\\Users\\Administrator\\Desktop\\wc.jar");//先打包好wc.jar
        try {
            FileSystem fs =FileSystem.get(config);
            Job job = Job.getInstance(config);
            job.setJarByClass(RunJob.class);
            job.setJobName("wc");
            job.setMapperClass(WordCountMapper.class);
            job.setReducerClass(WordCountReducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);
            FileInputFormat.addInputPath(job, new Path("/user/input/wc.txt"));//新建好输入路径,且数据源
            Path outpath =new Path("/user/output/wc");
            if(fs.exists(outpath)){
                fs.delete(outpath, true);
            }
            FileOutputFormat.setOutputPath(job, outpath);
            boolean f= job.waitForCompletion(true);
            if(f){
                System.out.println("job任务执行成功");
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

注意:由于本地为windows下环境需要修改hadoop源码,否则会出现NativeIO$Windows.access错误
(hadoop源码)[https://github.com/apache/hadoop] 下载本地后修改如下文件

\hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\io\nativeio\NativeIO.java
图片.png

修改后添加到本地,新建的包名要和hadoop的相同,这样本地执行引入的jar会优先加载该类。


图片.png

最后运行成功后,查看运行结果

[admin@node21 ~]$ hadoop fs -cat /user/output/wc/part-r-00000
a   6
b   6
c   3
d   17
e   11

和预期相同,很好
最后顺便贴出项目结构吧

图片.png

第五步
剩下的理解上面的代码,然后根据自己想法编写,已经理解hadoop运行原理和源码。好了,你已经算是入门了,哦 错了 应该是我

什么 源码? 那就上传到gayhub

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,914评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,935评论 2 383
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,531评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,309评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,381评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,730评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,882评论 3 404
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,643评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,095评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,448评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,566评论 1 339
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,253评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,829评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,715评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,945评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,248评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,440评论 2 348

推荐阅读更多精彩内容