转存服务器

参考原文: 转存服务器


Buffer、Stream、Promise、async await、request、分片上传

什么是转存服务器?

即向服务器发送一个图片的url地址,服务负责去将图片下载到服务器上,之后再将这个图片上传到存储服务,得到一个可以访问(通常情况都是CDN服务)的图片地址。

当服务器下在一个大型文件时,需要完全下载完,然后缓存到本地硬盘的缓存文件中,而且 一次性上传大文件,过程中由于耗时较长,因此存在较高的失败率,通常采用分片法来解决,如果分片失败则只需重新上传该分片即可。

在下载时,如果下载量满足一个分片大小则上传。所以第一步就是监听下载内容。ReadStream在接收数据时会不断的触发data事件,因此只需监听data事件就可以准确捕获到每一次数据传输过程,ReadStream分为两种模式流动模式暂停模式,流动模式下数据会源源不断的流出供需要者使用,而暂停模式只有调用read()方法才会有数据流出。这里我们通过pipe把ReadStream与WriteStream相连,让数据流动起来。

const request = require('request');
const fs      = require('fs');
const path    = require('path');
const url     = 'https://baobao-3d.bj.bcebos.com/16-0-205.shuimian.mp4';


const httpReadStream  = request({method: 'GET', url: url});
const fileWriteStream = fs.createWriteStream(path.join(__dirname, 'download', 'lyf.mp4'));

httpReadStream.pipe(fileWriteStream);

let totalLength = 0;
httpReadStream
    .on('response', res=> {
        console.log('response.headers', res.statusCode);
    })
    .on('data', chunk=> {
        totalLength += chunk.length;
    })
    .on('error', err=> {
        console.log('err', err);
    });

fileWriteStream.on('close', ()=> {
    console.log(`已下载文件大小: ${(totalLength / 1000 / 1024).toFixed(2)} MB`)
});```

每次data事件获取的chunk大小因网络而变化,假设每次上传分片大小为2MB,每一次chunk有可能大于2MB也可能小于2MB,所以可在中间设置一缓冲区,当缓冲区满足2MB时就取出2MB作为一个分片进行上传。

于是我们使用Buffer实现一个缓冲区,主要用于分片。
```javascript
class BufferCache {
    constructor(cutSize = 2 * 1024 * 1000) {
        this._cache      = Buffer.alloc(0);
        this._cutSzie    = cutSize;
        this._readyCache = [];
    }

    push(buf) {
        let cacheLength = this._cache.length;
        let bufLength   = buf.length;
        this._cache     = Buffer.concat([this._cache, buf], bufLength + cacheLength)
        this.cut();
    }

    pull() {
        return this._readyCache.shift();
    }


    cut() {
        if (this._cache.length >= this._cutSzie) {
            const totalCacheLength = this._cache.length;
            let cutCount           = Math.floor(totalCacheLength / this._cutSzie);

            for (let i = 0; i < cutCount; i++) {
                let newBuffer = Buffer.alloc(this._cutSzie);
                this._cache.copy(newBuffer, 0, i * this._cutSzie, (i + 1) * this._cutSzie);
                this._readyCache.push(newBuffer);
            }
            this._cache = this._cache.slice(cutCount * this._cutSzie);
        }
    }

    getReadChunks() {
        return this._readyCache;
    }

    getRemainChunks() {
        if (this._cache.length < this._cutSzie)
            return this._cache;
        else {
            this.cut();
            return this.getRemainChunks();
        }
    }
}

exports = module.exports = BufferCache;

为了便于后面的编码,提高可扩展性和可读性,我们将下载过程封装如下。通过四个回调函数轻易掌控下载开始、中途、结束、异常四种状态。

const request     = require('request');
const fs          = require('fs');
const path        = require('path');
const BufferCache = require('./bufferCache');
const url         = 'https://baobao-3d.bj.bcebos.com/16-0-205.shuimian.mp4';
const _cutSize    = 1024 * 1000 * 2;
const bufferCache = new BufferCache(_cutSize);
let isFinished    = false;

function getChunks(options, onStart, onData, onFinish, onError) {
    const httpReadStream  = request({method: options.method, url: options.url});
    const fileWriteStream = fs.createWriteStream(path.join(__dirname, 'download', 'lyf.mp4'));

    httpReadStream.pipe(fileWriteStream);

    let downloadedLength = 0;
    httpReadStream
        .on('response', res=>onStart(res))
        .on('data', chunk=> {
            downloadedLength += chunk.length;
            onData(chunk, downloadedLength)
        })
        .on('error', err=>onError(err));
    
    fileWriteStream.on('close', ()=> {
        onFinish(downloadedLength)
    });
}

function onStart(res) {
    console.log('start downloading, statusCode is :', res.statusCode);
}

function onData(chunk, downloadedLength) {
    bufferCache.push(chunk);
}

function onFinished(totalLength) {
    let chunkCount = Math.ceil(totalLength / _cutSize);
    console.log('total chunk count is:' + chunkCount);
}

function onError(err) {
    console.log('err', err)
}

getChunks({method: 'GET', url: url}, onStart, onData, onFinished, onError);

截止目前,我们已经完成下载、分片接下来需要考虑如下:

  • 如何连续获取准备好的分片?
  • 如何上传分片?
  • 上传分片失败的重传问题?
  • 上传完所有分片之后的统一处理接口?
  • 分片的并发上传?以及并发数的控制
  • 如何连续获取准备好的分片?
    在onStart执行之后即数据开始传输时,我们可以使用Node自带的间隔计时器setInterval,每隔200ms获取一次分片。一个文件在经过多次相同大小的切割之后,总会遗留下小的一块分片,因此我们还需要对最后一个分片进行特殊处理。当 readyCache 的长度为0的时候,而且下载已经完成,不会再调用 pushBuf 函数,就是获取最后一段分片的时机。于是重写onStart函数完成以上业务
function onStart(res) {
    console.log('start downloading, statusCode is :', res.statusCode);
    let interval = setInterval(function () {
        if (bufferCache.getReadChunks().length > 0) {
            let readCache = bufferCache.pull();
            console.log('recives', readCache.length)
        }
        if (isFinished) {
            clearInterval(interval);
            let lastChunk = bufferCache.getRemainChunks();
            console.log('the last chunk', lastChunk.length);
        }
    }, 200)
}
  • 如何上传分片?
    使用HTTP进行文件上传,文件在传输过程中为一个byte序列,其 content-type 为 multipart/form-data,我们先通过Promise封装一个上传函数
function upload(url, data) {
    return new Promise((resolve, reject) => {
        request.post({
            url: url,
            formData: data
        }, function (err, response, body) {
            if (!err && response.statusCode === 200) {
                resolve(body);
            }
            else {
                reject(err);
            }
        });
    });
}

我们现在需要从缓存中拿分片,如国还有剩余着继续,没有则通知发送完成,对于这样的逻辑可以使用递归
假设当前网络环境拥堵,会导致上传一个分片的时间 > 200ms, 200ms之后下一次轮询开始运行时,原先的分片还没上传完毕,由于没有一个状态值进行判断,依然会调用上传函数,又再一次进行分片上传,就会更加剧的网络拥堵环境,导致分片上传时间更短。如此反复,时间一长就会导致崩溃,造成分片上传全部大面积失败。为了避免这样的情况,我们就需要一个变量来表示当前这个上传流程的状态,目前我们只关心单个流程进行上传,可以只需要保证最大同时上传的值为1即可。

function sendChunks() {
    let chunkId     = 0; // 给每个分片划分ID
    let sending     = 0; // 当前并行上传的数量
    let MAX_SENDING = 1; // 最大并行上传数

    function send(readCaches) {
        if (readCaches.length <= 0)
            return;
        console.log(`发送第 ${chunkId} 块分片`)
        const chunk       = readCaches.shift();
        const sendPromise = upload('http://localhost:3000/upload', {
            chunk: {
                value: chunk,
                options: {
                    // 在文件名称上添加chunkId,可以方便后端服务进行分片整理
                    filename: 'example.mp4_IDSPLIT_' + chunkId
                }
            }
        });
        sending++;
        sendPromise.then(resBody=> {
            sending--;
            if (resBody.uploadStatus === 0 && readCaches.length > 0)
                send(readCaches);
        });
        chunkId++;
    }

    return new Promise((resolve, reject)=> {
        let readyCaches = bufferCache.getReadChunks();
        let interval    = setInterval(function () {
            if (readyCaches.length >= 0 && sending <= MAX_SENDING) {
                send(readyCaches);
            }
            if (isFinished && readyCaches.length === 0) {
                clearInterval(interval);
                const lastChunk = bufferCache.getRemainChunks();
                readyCaches.push(lastChunk);
                send(readyCaches)
            }
        }, 200)
    })
}

截止此我们已经完成下载-分片-连续上传分片的简单实现,但如果某一分片上传失败又该怎么办呢?send()函数可以看作一个发送单个分片(不考虑递归)的控制器,只需在其内部捕获上传错误的分片,保存下来重传即可。于是我们修改sendChunks函数如下:在send().cathc(fn)内进行重传控制,在可尝试次数之内进行重传,如果失败则抛出异常。

function sendChunks() {
    let chunkId = 0;
    let sending = 0; // 当前并行上传的数量
    let MAX_SENDING = 1; // 最大并行上传数
    let stopSend = false;

    function send(options) {
        let readyCache = options.readyCache;
        let fresh = options.fresh;
        let retryCount = options.retry;
        let chunkIndex;

        let chunk = null;

        // 新的数据
        if (fresh) {
            if (readyCache.length === 0) {
                return;
            }

            chunk = readyCache.shift();
            chunkIndex = chunkId;
            chunkId++;
        }
        // 失败重试的数据
        else {
            chunk = options.data;
            chunkIndex = options.index;
        }

        sending++;
        let sendP = upload('http://localhost:3000', {
            chunk: {
                value: chunk,
                options: {
                    filename: 'example.mp4_IDSPLIT_' + chunkIndex
                }
            }
        }).then((response) => {
            sending--;
            let json = JSON.parse(response);

            if (json.errno === 0 && readyCache.length > 0) {
                return send({
                    retry: RETRY_COUNT,
                    fresh: true,
                    readyCache: readyCache
                });
            }

            // 这里一直返回成功
            return Promise.resolve(json);
        }).catch(err => {
            if (retryCount > 0) {
                // 这里递归下去,如果成功的话,就等同于错误已经处理
                return send({
                    retry: retryCount - 1,
                    index: chunkIndex,
                    fresh: false,
                    data: chunk,
                    readyCache: readyCache
                });
            }
            else {
                console.log(`upload failed of chunkIndex: ${chunkIndex}`);
                // 停止上传标识,会直接停止上传
                stopSend = true;
                // 返回reject,异常抛出
                return Promise.reject(err);
            }
        });
    }

    return new Promise((resolve, reject) => {
        let readyCache = bufferCache.getChunks();

        let sendTimer = setInterval(() => {
            if (sending < MAX_SENDING && readyCache.length > 0) {
                // 改用传入对象
                send({
                    retry: 3, // 最大重试3次
                    fresh: true, // 用这个字段来区分是新的分片,还是由于失败重试的
                    readyCache: readyCache
                }).catch(err => {
                    console.log('upload failed, errmsg: ', err);
                });
            }
            else if (isFinished && readyCache.length === 0 || stopSend) {
                clearTimeout(sendTimer);

                // 已经成功走到最后一个分片了。
                if (!stopSend) {
                    let lastChunk = bufferCache.getRemainChunks();
                    readyCache.push(lastChunk);

                    send({
                        retry: 3,
                        fresh: true,
                        readyCache: readyCache
                    }).catch(err => {
                        console.log('upload failed, errmsg: ', err);
                    });
                }
            }

            // 到这里是为分片正在下载,同时又正在上传
            // 或者上传比下载快,已经下载好的分片都传完了,等待下载完成
        }, 200);
    });
}
  • 上传完所有分片之后的统一处理接口?
    由于上传send()在成功上传一个分片后会返回一个Promise对象,上传失败时会抛出异常,所以只需使用Promsie.all()方法捕获即可。
let readyCache = bufferCache.getChunks();
let sendPromise = [];

let sendTimer = setInterval(() => {
    if (sending < MAX_SENDING && readyCache.length > 0) {
        // 把Promise塞进数组
        sendPromise.push(send({
            retry: RETRY_COUNT,
            fresh: true,
            readyCache: readyCache
        }));
    }
    else if ((isFinished && readyCache.length === 0) || stopSend) {
        clearTimeout(sendTimer);

        if (!stopSend) {
            console.log('got last chunk');
            let lastChunk = bufferCache.getRemainChunks();
            readyCache.push(lastChunk);
            // 把Promise塞进数组
            sendPromise.push(send({
                retry: RETRY_COUNT,
                fresh: true,
                readyCache: readyCache
            }));
        }

        // 当所有的分片都发送之后触发,
        Promise.all(sendPromise).then(() => {
            console.log('send success');
        }).catch(err => {
            console.log('send failed');
        });
    }
    // not ready, wait for next interval
}, 200);

  • 分片的并发上传?以及并发数的控制?现在还剩最后一个问题,Node本身就是非阻塞IO、事件驱动的,我们只需使用send()去同步的获得执行,而真正的上传逻辑upload却是异步,所以不需要考虑资源竞争、死锁等问题,只需同步扩展send方法即可。

let readyCache = bufferCache.getChunks();
let threadPool = [];

let sendTimer = setInterval(() => {
    if (sending < MAX_SENDING && readyCache.length > 0) {
        // 这个例子同时开启4个分片上传
        for (let i = 0; i < MAX_SENDING; i++) {
            let thread = send({
                retry: RETRY_COUNT,
                fresh: true,
                readyCache: readyCache
            });

            threadPool.push(thread);
        }
    }
    else if ((isFinished && readyCache.length === 0) || stopSend) {
        clearTimeout(sendTimer);

        if (!stopSend) {
            console.log('got last chunk');
            let lastChunk = bufferCache.getRemainChunks();
            readyCache.push(lastChunk);
            threadPool.push(send({
                retry: RETRY_COUNT,
                fresh: true,
                readyCache: readyCache
            }));
        }

        Promise.all(threadPool).then(() => {
            console.log('send success');
        }).catch(err => {
            console.log('send failed');
        });
    }
}, 200);

这里我们通过文件的md5值去判断是否属于同一文件。


function toMd5(buffer) {
    let md5 = crypto.createHash('md5');
    md5.update(buffer);
    return md5.digest('hex');
}

存储服务器上由于是分片后的文件,所以我们先把目录中的文件以Buffer的形式读入内存,在求文件的md5值即可。

function filesInDirToBuffer(dirPath) {
    let totalBuffer = Buffer.allocUnsafe(0);
    const dirsInfo  = fs.readdirSync(dirPath);
    dirsInfo.forEach(file=> {
        if (file != '.DS_Store') {
            const currentFileBuffer = fs.readFileSync(path.join(dirPath, file));
            totalBuffer             = Buffer.concat([totalBuffer, currentFileBuffer], totalBuffer.length + currentFileBuffer.length);
        }
    });
    return totalBuffer;
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,978评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,954评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,623评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,324评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,390评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,741评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,892评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,655评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,104评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,451评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,569评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,254评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,834评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,725评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,950评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,260评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,446评论 2 348

推荐阅读更多精彩内容