bsdiff 差分算法使用

1. 背景

玩过王者荣耀的同学肯定碰到过这样的场景:一段时间没打开 APP,打开的时候会提醒你下载安装升级资源包,一个完整的资源包可能超过 1 个 G ,但是升级资源包可能只有百来 M 大小;用 Android 手机的同学下载一个微信或者淘宝,完整的包大小有一两百 M 大小,但是手机应用市场提醒你更新时,会提醒你只需要下载几十 M 就可以了。这些场景都使用了差分算法,以 Android APP 为例,一个完整的 apk 包大小可能有 100 多 M 大小,每次版本升级时,如果让用户下载 100 多 M 大小的文件,无疑用户体验是很差的,文件越大越耗流量,下载成功率也越低,用户等待的时间也越长,但是如果用差分算法比较新旧两个 apk 包文件,计算出一个大小小很多的差分包来,用户更新时下载的是差分包,然后本地将原包与差分包合并成新包,对用户体验来说无疑是巨大的提升。

差分算法有很多,这里介绍一种比较常用的差分算法 bsdiff

2. 安装步骤

2.1. 下载安装编译 bsdiff

首先下载 bsdiff 库,其下载地址为:bsdiff,其次 bsdiff 算法里用到了 bzlib 这个压缩库,下载地址为:bzip2

将这 2 个库解压之后,将 bzip2 文件夹和 bsdiff.c 文件放在同一目录,最终目录结构如下图所示:


在 bsdiff.c 里添加如下引用:

#include "bzip2/bzlib.c"
#include "bzip2/crctable.c"
#include "bzip2/compress.c"
#include "bzip2/decompress.c"
#include "bzip2/randtable.c"
#include "bzip2/blocksort.c"
#include "bzip2/huffman.c"

打开命令行进入到 bsdiff 所在目录,执行 gcc bsdiff.c 命令编译,会生成一个 a.out 文件,然后就可以运行生成差分包了。

2.2. 生成差分包

我们看下 bsdiff.c 的 main 方法:

int main(int argc,char *argv[])
{
        int fd;
        u_char *old,*new;
        off_t oldsize,newsize;
        off_t *I,*V;
        off_t scan,pos,len;
        off_t lastscan,lastpos,lastoffset;
        off_t oldscore,scsc;
        off_t s,Sf,lenf,Sb,lenb;
        off_t overlap,Ss,lens;
        off_t i;
        off_t dblen,eblen;
        u_char *db,*eb;
        u_char buf[8];
        u_char header[32];
        FILE * pf;
        BZFILE * pfbz2;
        int bz2err;

        if(argc!=4) errx(1,"usage: %s oldfile newfile patchfile\n",argv[0]);

        /* Allocate oldsize+1 bytes instead of oldsize bytes to ensure
                that we never try to malloc(0) and get a NULL pointer */
        if(((fd=open(argv[1],O_RDONLY,0))<0) ||
                ((oldsize=lseek(fd,0,SEEK_END))==-1) ||
                ((old=malloc(oldsize+1))==NULL) ||
                (lseek(fd,0,SEEK_SET)!=0) ||
                (read(fd,old,oldsize)!=oldsize) ||
                (close(fd)==-1)) err(1,"%s",argv[1]);

可以看到代码中有注释 usage: %s oldfile newfile patchfile,也就是 main 方法总共需要 3 个参数:oldFile(旧文件)、newFile(新文件)、patchfile(待生成的差分文件路径)。

以为自己电脑上的配置为例:

//注意 a.out 一定为全路径,old.bundle、new.bundle 文件都都放在同个文件夹下
/Users/hjy/Desktop/bsdiff/a.out old.bundle new.bundle patch.bundle

执行完成后会生成差分文件 patch.bundle,如下图所示:

说明一下,上面例子中我使用了自己的一个 react-native 项目, old.bundle 文件是将 rn 工程单独打包出来的 js bundle 文件,然后再修改几行 js 代码,重新打包出来后得到的是 new.bundle 文件,patch.bundle 文件是新旧两个 js bundle 的差分包。如果我们在进行版本更新时,理论上我只需要下载 patch.bundle 文件,然后再将其与 old.bundle 合并生成 new.bundle 即可,这样就可以少下载很多东西。

在我这个例子当中 old.bundle、new.bundle 文件大小都差不多,均为 19 M 多,但我只是修改了几行代码,所以生成的差分包及其小,只有 200 多个字节的大小。

2.3. 合并旧包和差分包

合并需要使用 bspatch,规则如下:

bspatch oldfile newfile patchfile

同样通过命令行进入 bsdiff 目录,将前面生成的差分包与老包合并:

bspatch old.bundle merge.bundle patch.bundle

merge.bundle 就是我们合成的新包:


我们分别计算下 new.bundlemerge.bundle 文件的 md5 值,如果两者相同则说明我们合并是 OK 的。

hjydeMacBook-Pro:bsdiff hjy$ md5 new.bundle merge.bundle 
MD5 (new.bundle) = 940d3ec68c041dcd16b0740890022cf2
MD5 (merge.bundle) = 940d3ec68c041dcd16b0740890022cf2

上面的结果验证了我们生成差分包以及合并差分包都是正确的。

3. 在 Android 中编译 bsdiff

bsdiff 是采用 c 来编写,在 Android 中肯定是不能直接拿来使用的,那就需要将 bsdiff 编译成静态 so 库,然后通过 JNI 的方式来调用。

3.1. 创建 jni 目录

为了方便可以新建一个 Android 工程,在 app/src/main 目录下新建 jni 文件夹,将前面的 bsdiff 源文件拷贝到 jni 目录下。

3.2. 创建 java native 方法以及 .h 头文件

创建一个 Java 类 FileDiffer,在其中声明 native 方法,如下所示:

package com.hjy.bsdiff;
public class FileDiffer {
    public static native int fileDiff(String oldFile, String newFile, String patchFile);
    public static native int fileCombine(String oldFile, String newFile, String patchFile);
}

然后使用 javah 命令生成 .h 头文件,在 app/src/main/java 目录下执行命令(注意自己实际的包名,我这里为com.hjy.bsdiff):

javah com.hjy.bsdiff.FileDiffer

执行完之后,会生成一个 com_hjy_bsdiff_FileDiffer.h 头文件,将该头文件拷贝到 jni 目录下。

3.3. 修改 bsdiff.c、bspatch.c

为了能让 JNI 里的方法能够调用,需要将 main 方法改造成普通的方法,然后在我们定义的 jni 方法中组装好参数之后调用。

#if 0
__FBSDID("$FreeBSD: src/usr.bin/bsdiff/bsdiff/bsdiff.c,v 1.1 2005/08/06 01:59:05 cperciva Exp $");
#endif

//引入我们自己生成的头文件
#include <com_hjy_bsdiff_FileDiffer.h>

#include <sys/types.h>

#include "bzip2/bzlib.c"
#include "bzip2/crctable.c"
#include "bzip2/compress.c"
#include "bzip2/decompress.c"
#include "bzip2/randtable.c"
#include "bzip2/blocksort.c"
#include "bzip2/huffman.c"

//注意删除源文件的这里
//#include <bzlib.h>

#include <err.h>
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>

//引入 jni 库
#include <jni.h>

...
省略部分
...

//原来 main 方法修改
int fileDiff(int argc,char *argv[])
{
    int fd;
    u_char *old,*new;
    off_t oldsize,newsize;
    off_t *I,*V;
    off_t scan,pos,len;
    off_t lastscan,lastpos,lastoffset;
    off_t oldscore,scsc;
    off_t s,Sf,lenf,Sb,lenb;
    off_t overlap,Ss,lens;
    off_t i;
    off_t dblen,eblen;
    u_char *db,*eb;
    u_char buf[8];
    u_char header[32];
    FILE * pf;
    BZFILE * pfbz2;
    int bz2err;

    if(argc!=4) errx(1,"usage: %s oldfile newfile patchfile\n",argv[0]);
  ...
  省略部分
  ...
    return 0;
}

JNIEXPORT jint JNICALL Java_com_hjy_bsdiff_FileDiffer_fileDiff
  (JNIEnv *env, jclass clazz, jstring old, jstring new, jstring patch)
{
    int argc = 4;
    char *argv[argc];
    argv[0] = "bsdiff";
    argv[1] = (char *)((*env) -> GetStringUTFChars(env, old, 0));
    argv[2] = (char *)((*env) -> GetStringUTFChars(env, new, 0));
    argv[3] = (char *)((*env) -> GetStringUTFChars(env, patch, 0));
    int result = fileDiff(argc, argv);
    //释放资源
    (*env) -> ReleaseStringUTFChars(env,old,argv[1]);
    (*env) -> ReleaseStringUTFChars(env,new,argv[2]);
    (*env) -> ReleaseStringUTFChars(env,patch,argv[3]);
    return result;
}

3.4. 编辑 Android.mk

在 jni 目录下增加 Android.mk 文件,内容如下:

LOCAL_PATH := $(call my-dir)
include $(CLEAR_VARS)
LOCAL_MODULE := bsdiff
LOCAL_SRC_FILES :=  bsdiff.c
LOCAL_C_INCLUDES += \ $(JNI_H_INCLUDE) bzip2
include $(BUILD_SHARED_LIBRARY)

include $(CLEAR_VARS)
LOCAL_MODULE := bspatch
LOCAL_SRC_FILES :=  bspatch.c
LOCAL_C_INCLUDES += \ $(JNI_H_INCLUDE) bzip2
include $(BUILD_SHARED_LIBRARY)

进入 jni 目录执行命令 sh /Users/hjy/Library/Android/sdk/ndk/21.3.6528147/ndk-build 进行编译,就会在工程中生成 libs 目录,这里就是编译好的静态库了。

代码已放在 github 上,有兴趣可以下载过来自己编译:https://github.com/houjinyun/bsdiff-android

4. 基于 bsdiff 进行Android增量更新

现在我们简单来说说 Android 的增量更新是怎么做的?在 Android 中有个 apk 包安装之后,原始的 apk 安装文件会缓存到 /data/app 目录下,比方说我上面这个测试 demo 缓存文件叫 /data/app/com.hjy.bsdiff-4wzfIowNkU7QjvyXt0MRew==/base.apk,可有通过以下方法获取到:

ApplicationInfo applicationInfo = getPackageManager().getApplicationInfo(getPackageName(), 0);
//sourceDir即原始apk文件路径
String sourceDir = applicationInfo.sourceDir;

当我们发布新版本的时候,首先利用 bsdiff 工具将新老 apk 包生成一个差分包,用户在手机端只下载这个差分包,然后在本地读取老的 apk 文件,将之与差分包一起合并成新包,最后重新覆盖安装就可以了。

这是 Android 中进行增量更新的方案,当然实际上远没这么简单,因为老的版本分布会很广泛,每发布一个新版本之后,你需要针对不同的版本生成对应的差分包,同一个版本因为发布渠道的不同可能也会有很多变体。

差分算法在实际当中有很多应用,我想到的有:

  • Android 增量更新;
  • react-native 中发布热更新时,对 js bundle 生成差分包,本地合并 js bundle 文件,减小文件下载量;
  • 动态资源更新时,如果全量资源包很大,后续有更新时,也可进行增量更新,提高下载成功率;
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容