概述
在Node中,应用需要处理网络协议、操作数据库、处理图片、接收上传文件等,在网络流和文件的操作中,还要处理大量二进制数据,在ES6引入TypedArray之前,JavaScript语言没有读取或操作二进制数据流的机制,于是Buffer类被引入作为NodejsAPI的一部分,使其可以在TCP流和文件系统操作等场景中处理二进制数据流。现在TypedArray已经被添加进ES6中,Buffer类以一种更优与更适合Node.js用例的方式实现了Uint8Array。
Buffer是一个典型的JavaScript与C++结合的模块,它将性能相关部分用C++实现,将非性能相关的部分用JavaScript实现。Buffer类的实例类似于整数数组,除了其是大小固定的、且在V8堆外分配物理内存。Buffer的大小在其创建时就已确定,且不能调整大小。
由于Buffer太过常见,Node在进程启动时就已经加载了它,并将其放在全局对象(global)上。所以在使用Buffer时,无须通过require()即可直接使用。
{ [Function: Buffer]
poolSize: 8192,
from: [Function: from],
of: [Function: of],
alloc: [Function: alloc],
allocUnsafe: [Function: allocUnsafe],
allocUnsafeSlow: [Function: allocUnsafeSlow],
isBuffer: [Function: isBuffer],
compare: [Function: compare],
isEncoding: [Function: isEncoding],
concat: [Function: concat],
byteLength: [Function: byteLength],
[Symbol(kIsEncodingSymbol)]: [Function: isEncoding] }
创建
在 Node.js v6之前的版本中,Buffer
实例是通过Buffer
构造函数创建的,它根据提供的参数返回不同的 Buffer,而新版本的nodejs则提供了对应的方法。
1、new Buffer(size)。传一个数值作为第一个参数给Buffer()(如new Buffer(10)),则分配一个指定大小的新建的Buffer对象。
分配给这种Buffer实例的内存是未初始化的(没有用0填充)。虽然这样的设计使得内存的分配非常快,但已分配的内存段可能包含潜在的敏感旧数据。
这种Buffer实例必须手动地被初始化,可以使用buf.fill(0)或写满这个Buffer。虽然这种行为是为了提高性能而有意为之的,但开发经验表明,创建一个快速但未初始化的Buffer与创建一个慢点但更安全的Buffer之间需要有更明确的区分。
[注意]当我们为一个Buffer对象分配空间大小后,其长度就是固定的,不能更改。
var buf = new Buffer(5);
console.log(buf);//<Buffer b8 36 70 01 02>
buf[0] = 1;
console.log(buf);//<Buffer 01 36 70 01 02>
buf[10] = 1;
console.log(buf);//<Buffer 01 79 43 6f 6e>
【Buffer.allocUnsafe(size)】
在新版本中,由Buffer.allocUnsafe(size)方法替代,来分配一个大小为 size 字节的新建的没有用0填充的Buffer。可以使用buf.fill(0)初始化Buffer实例为0。
var buf = Buffer.allocUnsafe(10);
console.log(buf);//<Buffer 75 63 74 42 79 4c 65 6e 67 74>
buf.fill(0);
console.log(buf);//<Buffer 00 00 00 00 00 00 00 00 00 00>
【Buffer.alloc(size[, fill[, encoding]])】
在新版本中,使用Buffer.alloc(size)方法可以生成一个安全的buffer对象,参数size <Integer> 新建的 Buffer 期望的长度;fill <String> | <Bffer> | <Integer> 用来预填充新建的 Buffer 的值。 默认: 0;encoding <String> 如果 fill 是字符串,则该值是它的字符编码。 默认: 'utf8'。
分配一个大小为 size 字节的新建的 Buffer 。 如果 fill 为 undefined ,则该 Buffer 会用 0 填充
var buf = Buffer.alloc(5);
console.log(buf);//<Buffer 00 00 00 00 00>
2、new Buffer(array或buffer)。传一个数组或Buffer作为第一个参数,则将所传对象的数据拷贝到Buffer。
var buf1 = new Buffer([1, 2, 3, 4, 5]);
console.log(buf1);//<Buffer 01 02 03 04 05>
var buf2 = new Buffer(buf1);
console.log(buf2);//<Buffer 01 02 03 04 05>
【Buffer.from(array或buffer)】
在新版本中,由Buffer.from(array或buffer)方法替代
var buf1 = Buffer.from([1, 2, 3, 4, 5]);
console.log(buf1);//<Buffer 01 02 03 04 05>
var buf2 = Buffer.from(buf1);
console.log(buf2);//<Buffer 01 02 03 04 05>
3、new Buffer(string[, encoding])。第一个参数是字符串,第二个参数是编码方式,默认是'utf-8'
var buf1 = new Buffer('this is a tést');
console.log(buf1.toString());//this is a tést
console.log(buf1.toString('ascii'));//this is a tC)st
var buf2 = new Buffer('7468697320697320612074c3a97374', 'hex');
console.log(buf2.toString());//this is a tést
Node.js 目前支持的字符编码包括:
'ascii' - 仅支持 7 位 ASCII 数据。如果设置去掉高位的话,这种编码是非常快的。
'utf8' - 多字节编码的 Unicode 字符。许多网页和其他文档格式都使用 UTF-8 。
'utf16le' - 2 或 4 个字节,小字节序编码的 Unicode 字符。支持代理对(U+10000 至 U+10FFFF)。
'ucs2' - 'utf16le' 的别名。
'base64' - Base64 编码。当从字符串创建 Buffer 时,这种编码可接受“URL 与文件名安全字母表”。
'latin1' - 一种把 Buffer 编码成一字节编码的字符串的方式。
'binary' - 'latin1' 的别名。
'hex' - 将每个字节编码为两个十六进制字符。
4、new Buffer(arrayBuffer[, byteOffset [, length]])。参数arrayBuffer <ArrayBuffer> 一个 ArrayBuffer,或一个 TypedArray 的 .buffer 属性;byteOffset <Integer> 开始拷贝的索引。默认为 0;length <Integer> 拷贝的字节数。默认为 arrayBuffer.length - byteOffset
var arr = new Uint16Array(2);
arr[0] = 5000;
arr[1] = 4000;
var buf = new Buffer(arr.buffer);
console.log(buf);//<Buffer 88 13 a0 0f>
arr[1] = 6000;
console.log(buf);//<Buffer 88 13 70 17>
【Buffer.from(arrayBuffer[, byteOffset [, length]])】
在新版本中,由Buffer.from(arrayBuffer[, byteOffset [, length]])方法替代
var arr = new Uint16Array(2);
arr[0] = 5000;
arr[1] = 4000;
var buf = Buffer.from(arr.buffer);
console.log(buf);//<Buffer 88 13 a0 0f>
arr[1] = 6000;
console.log(buf);//<Buffer 88 13 70 17>
【类数组】
Buffer对象类似于数组,它的元素为16进制的两位数,即0到255的数值
console.log(Buffer.from('test'));//<Buffer 74 65 73 74>
【长度】
不同编码的字符串占用的元素个数各不相同,中文字在UTF-8编码下占用3个元素,字母和半角标点符号占用1个元素。
var buf = Buffer.from('zyb');
console.log(buf.length);//3
var buf = Buffer.from('世界和平');
console.log(buf.length);//12
【下标】
Buffer受Array类型的影响很大,可以访问length属性得到长度,也可以通过下标访问元素
var buf = Buffer.alloc(10);
console.log(buf.length); // => 10
上述代码分配了一个长10字节的Buffer对象。我们可以通过下标对它进行赋值
buf[0] = 100;
console.log(buf[0]); // => 100
要注意的是,给元素的赋值如果小于0,就将该值逐次加256,直到得到一个0到255之间的整数。如果得到的数值大于255,就逐次减256,直到得到0~255区间内的数值。如果是小数,舍弃小数部分,只保留整数部分。
buf[0] = -100;
console.log(buf[0]); // 156
buf[1] = 300;
console.log(buf[1]); // 44
buf[2] = 3.1415;
console.log(buf[2]); // 3
【fromcharcode】
通常地,创建的buffer对象的内容是其uft-8字符编码
var buf = Buffer.from('zyb');
console.log(buf); //<Buffer 7a 79 62>
如果要访问其对应的字符,则需要使用字符串的fromCharCode()
console.log(String.fromCharCode(buf[0]));//'z'
内存分配
Buffer对象的内存分配不是在V8的堆内存中,而是在Node的C++层面实现内存的申请的。因为处理大量的字节数据不能采用需要一点内存就向操作系统申请一点内存的方式,这可能造成大量的内存申请的系统调用,对操作系统有一定压力。为此Node在内存的使用上应用的是在C++层面申请内存、在JavaScript中分配内存的策略。
为了高效地使用申请来的内存,Node采用了slab分配机制。slab是一种动态内存管理机制,最早诞生于SunOS操作系统(Solaris)中,目前在一些*nix操作系统中有广泛的应用,如FreeBSD和Linux。简单而言,slab就是一块申请好的固定大小的内存区域。slab具有如下3种状态:full:完全分配状态;partial:部分分配状态;empty:没有被分配状态。
当我们需要一个Buffer对象,可以通过以下方式分配指定大小的Buffer对象:
new Buffer(size);//旧
Buffer.alloc(size);//新
【poolSize】
poolSize属性是用于决定预分配的、内部 Buffer 实例池的大小的字节数。默认地,Node以8KB为界限来区分Buffer是大对象还是小对象:Buffer.poolSize = 8 * 1024;
这个8KB的值也就是每个slab的大小值,在JavaScript层面,以它作为单位单元进行内存的分配
转化
Buffer对象可以与字符串之间相互转换。目前支持的字符串编码类型有如下几种:ASCII、UTF-8、UTF-16LE/UCS-2、Base64、Binary、Hex。
【write()】
一个Buffer对象可以存储不同编码类型的字符串转码的值,调用write()方法可以实现该目的。
buf.write(string, [offset], [length], [encoding])
string <String> 要写入 buf 的字符串
offset <Integer> 开始写入 string 的位置。默认: 0
length <Integer> 要写入的字节数。默认: buf.length - offset
encoding <String> string 的字符编码。默认: 'utf8';返回: <Integer> 写入的字节数
根据 encoding 的字符编码写入 string 到 buf 中的 offset 位置。 length 参数是写入的字节数。 如果 buf 没有足够的空间保存整个字符串,则只会写入 string 的一部分,只部分解码的字符不会被写入。
var buf = Buffer.alloc(5);
console.log(buf); //<Buffer 00 00 00 00 00>
var len = buf.write('test',1,3);
console.log(buf);//<Buffer 00 74 65 73 00>
console.log(len);/3
由于可以不断写入内容到Buffer对象中,并且每次写入可以指定编码,所以Buffer对象中可以存在多种编码转化后的内容。需要小心的是,每种编码所用的字节长度不同,将Buffer反转回字符串时需要谨慎处理。
【toString()】
实现Buffer向字符串的转换也十分简单,Buffer对象的toString()可以将Buffer对象转换为字符串。
buf.toString([encoding], [start], [end])
encoding - 使用的编码。默认为 'utf8'
start - 指定开始读取的索引位置,默认为 0
end - 结束位置,默认为缓冲区的末尾
返回 - 解码缓冲区数据并使用指定的编码返回字符串
var buf =Buffer.alloc(26);
for (var i = 0 ; i < 26 ; i++) {
buf[i] = i + 97;
}
console.log( buf.toString('ascii'));//abcdefghijklmnopqrstuvwxyz
console.log( buf.toString('ascii',0,5));//abcde
console.log( buf.toString('utf8',0,5));//abcde
console.log( buf.toString(undefined,0,5));//abcde
【toJSON()】
将 Node Buffer 转换为 JSON 对象
buf.toJSON()
返回 buf 的 JSON 格式
var buf = Buffer.from('test');
var json = buf.toJSON(buf);
console.log(json);//{ type: 'Buffer', data: [ 116, 101, 115, 116 ] }