Hadoop的I/O操作

数据完整性

检测数据是否损坏的常见措施是：在数据第一次引入系统时，计算校验和（checksum）并在数据通过一个不可靠的通道进行传输时，再次计算校验和。
常见的错误检测码是CRC-32（32位循环冗余校验）

HDFS的数据完整性

datanaode会在一个后台线程中运行一个DataBlockScanner，定期验证存储在这个datanode上的所有数据块。
由于HDFS存储着每个数据块的复本，因此它可以通过数据复本来修复损坏的数据块。

压缩

文件压缩的好处：减少存储文件所需要的磁盘空间，并加速数据在网络和磁盘上的传输。

Codec是压缩-解压算法的一种实现，可以使用CompressionCodec对数据进行压缩和解压缩：

对写入输出数据流的数据进行压缩：createOutputStream（OutputStream out），该方法在底层的数据流中对需要以压缩格式写入在此之前尚未压缩的数据新建一个CompressionOutputStream对象。
对输入数据流中读取的数据进行解压缩：createInputStream（InputStream in），返回CompressionInputStream对象。

CompressionOutputStream和CompressionInputStream类似于java.util.zip.DeflaterOutputStream和java.util.zip.DeflaterInputStream，只是前者能够重置其底层的压缩或解压缩的方法。

范例：该程序压缩从标准输入读取的数据，然后将其写到标准输出

public class StreamCompressor{
    public class void main(String[] args)throws Exception{
        String codecClassname = args[0];
        Class<?> codecClass = Class.forName(codecClassName);
        Configuration conf = new Configuration();
        CompressionCodec codec = (CompressionCodec) RefectionUtils.newInstance(condecClass,conf);
        
        ComressionOutputStream out = codec.createOutputStream(System.out);
        IOUtils.copyByte(System.in,out,4096,false);
        out.finish();
    }
}

在MapReduce中使用压缩：

范例：对查找最高气温作业所产生的输出进行压缩：

// cc MaxTemperatureWithCompression Application to run the maximum temperature job producing compressed output
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

//vv MaxTemperatureWithCompression
public class MaxTemperatureWithCompression {

  public static void main(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MaxTemperatureWithCompression <input path> " +
        "<output path>");
      System.exit(-1);
    }

    Job job = new Job();
    //驱动程序
    job.setJarByClass(MaxTemperature.class);

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    
    FileOutputFormat.setCompressOutput(job, true);
    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);/*]*/
    
    job.setMapperClass(MaxTemperatureMapper.class);
    job.setCombinerClass(MaxTemperatureReducer.class);
    job.setReducerClass(MaxTemperatureReducer.class);
    
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}
//^^ MaxTemperatureWithCompression

序列化
序列化（serialization）是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。

反序列化（deserialization）是指将字节流转回结构化对象的逆过程。

序列化用于分布式数据处理的两大领域：进程间通信和永久存储。

在Hadoop中，系统中多个节点上进程间通信时通过RPC实现的，RPC协议将消息序列化成二进制流后发送到远程节点，远程节点接着将二进制流反序列化为原始消息。RPC序列化格式如下：

紧凑：紧凑格式能充分利用网络带宽
快速：进程间通信形成了分布式系统的骨架，所有需要尽量减少序列化和反序列化的性能开销。
可扩展：在控制客户端和服务端的过程中，需要直接引进相应的协议。
支持互操作：支持以不同语言写的客户端与服务器交互。

Writable接口

Writable接口定义了两个方法：

将其状态写入DataOutput二进制流，
从DataInput二进制流读取状态

package org.apache.hadoop.io;

import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;

public interface Writable{
    void write(DataOutput out)throws IOException;
    void readFields(DataInput in)throws IOException;
    ...
}

Wtitable类

Java基本类型的Writable类

基本类型.png

Text类型

ext可以认为是java.lang.String的Writable等价，Text类使用整型来存储字符串编码中所需的字节数，因此最大值为2G，text使用utf-8编码，与String的区别如下：

索引：由于Text使用utf-8编码，因此Text类的索引是根据编码后字节序列中的位置来实现的，并非字符串中的Unicode字符，也不是Java char的编码单元。Text的charAt()方法返回的是一个表示Unicode编码位置的int类型值，而String返回一个char类型值，Text的find()方法类似于String的indexOf()方法。
可变性：Text是可变的（所有的Hadoop的Writable接口都是可变的，NullWritable除外，它是单例对象），可以通过调用其中的set方法来重用text实例。
类图：

Writable类图.png

参考资料：《Hadoop权威指南》

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,163评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,301评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,089评论 0赞 352
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,093评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,110评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,079评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,005评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,840评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,278评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,497评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,667评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,394评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,980评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,628评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,796评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,649评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,548评论 2赞 352

Hadoop的I/O操作

推荐阅读更多精彩内容