Avatar notebook default
11篇文章 · 1952字 · 1人关注
  • Resize,w 360,h 240
    十一、 MapReducer-自定义输入输出

    一、 自定义FileInputFormat 自定义FileInputFormat,通过createRecordReader方法获取到Record...

  • 十五、 学生成绩统计

    背景:学校的学生的是一个非常大的生成数据的集体,比如每次考试的成绩现有一个班级的学生一个月的考试成绩数据。科目 姓名 分数需求:求出每门...

  • Resize,w 360,h 240
  • 十三、 HADOOP-ReduceJoin

    通过两个表的关联字段最为Mapper输出的key值,来保证reducer中的values是对应的order与production的记录

  • 十二、 HADOOP-mapjoin

    1、 多表 多表数据,可以使用mapjoin方式,通过将小表读取到缓存文件中,在map中正常读取大表数据,map方法中匹配小表数据来实现prod...

  • 十一、 HADOOP-自定义排序及分组排序

    1、 自定义排序 可通过实现writableComparable接口来实现自定义排序,并且使用此自定义类作为Mapper的输出key,例如有下面...

  • Resize,w 360,h 240
    十、 HADOOP-自定义writable

    1、 案例分析 将下面的数据流量数据进行流量统计,计算总上行,总下行,总汇总流量数据:时间戳 号码 mac地址:wifi IP 访问地址...

  • Resize,w 360,h 240
    九、 HADOOP-MR案例,日志清洗

    1、 我们可以通过使用MR来进行日志的清洗 例如下面的数据,在下面的数据中,通过空格对行记录进行切分,如果切分出来的字段不足11个,则是非法数据...

  • 八、 HADOOP-MapReducer切片

    1、 mapreduce关于大量小文件的优化策略 (1) 默认情况下,TextInputFormat对任务的切片机制是按照文件规划切片,不管有多...

文集作者