android音频编辑之音频合成

前言

音频编辑系列：

本篇主要讲解音频PCM数据的合成，这里合成包括音频之间的拼接，混合。

音频拼接：一段音频连接着另一段音频，两段音频不会同时播放，有先后顺序。
音频混合：一段音频和另一段音频存在相同的区间，两者会有同时播放的区间。

下面是音频拼接，音频混合的效果图：

音频拼接

音频混合

音频拼接

如果大家理解了android音频编辑之音频转换PCM与WAV和android音频编辑之音频裁剪的原理。那么音频拼接的原理其实就很好理解了。总的说来就是新建一个音频文件，将一段音频的PCM数据复制到新音频上，再将另一段音频的PCM数据复制到新音频上。但这里还是有一些需要注意的。

情景一

假设A音频40秒，B音频20秒，B音频数据拼接到A音频后面，得到60秒的C音频文件。

这种情况最简单了，新建音频文件C，将A音频的PCM数据复制到C音频文件上，再将B音频的PCM数据复制到C音频文件上，然后为C音频写上wav文件头信息，得到可播放的WAV文件。

情景二

假设A音频40秒，B音频20秒，B音频数据插入到A音频10秒的地方，得到60秒的C音频文件。

这种情况稍微复杂点，新建音频文件C，将A音频前10秒的PCM数据复制到C音频文件上，再将B音频的PCM数据复制到C音频文件上，再将A音频后30秒的PCM数据复制到C音频文件上，最后为C音频写上wav文件头信息，得到可播放的WAV文件。

情景三

假设A音频40秒，B音频20秒，B音频5至15秒的数据插入到A音频10秒的地方，得到50秒的C音频文件。

这种情况更复杂，也是最常见的插入场景，裁剪B音频并插入到A音频的某个位置，这里涉及到B音频数据的裁剪，当然原理其实也是简单的，计算出B音频5秒和10秒对应的文件数据位置，然后复制这个区间的数据到C上，针对A文件的数据，也是同样道理。

情景四

A音频和B音频中多段数据相互拼接

这种情况，原理同上面一样，只要知道指定时间对应的数据是什么，就可以实现自由拼接了。

音频拼接的实现参考我的Github项目 AudioEdit，这里我就不贴具体代码了。

音频混合

音频混合是指一段音频和另一段音频合在一起，能够同时播放，比如最常见的人声录音和背景音乐的合成，可以得到一首人声歌曲。
音频混合的原理是

音频混合原理: 量化的语音信号的叠加等价于空气中声波的叠加。

也就是说将输入的每段音频的某个时间点的采样点数值进行相加，即可将声音信号加入到输出的音频中。

音频采样点数值的大小是（-32768，32767），对应short的最小值和最大值，音频采样点数据就是由一个个数值组成的的。如果单纯叠加，可能会造成相加后的值会大于32767，超出short的表示范围，也就是溢出，所以在音频混合上回采用一些算法进行处理。下面列举下简单的混合方式。

直接叠加法

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）叠加后求平均值，得到C（（A1+B1）,（A2+B2）,（A3+B3）,（A4+B4））
这种情况，输出的音频中A和B音频数据都可以以相同声音大小播放，但是可能出现溢出的情况。假设A音频指定时间点的某段采样数据是（23,67,511,139,307），B音频对应该时间点的采样数据是（1101,300,47,600,22），那么两者直接叠加的话，得到的采样数据是（1124,367,558,739,329），这个短采样数据就是两者声音混合的数据了。

叠加后求平均值

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）叠加后求平均值，得到C（（A1+B1）/2,（A2+B2）/2,（A3+B3）/2,（A4+B4）/2）
这样可以避免出现溢出的情况，但是会出现两者声音会比之前单独的声音小了一半，比如人声和背景音乐混合，导致输出的音频中，人声小了一半，背景音乐也小了一半，这种情况可能就不是想要的效果，特别是多段音频混合的情况。

权值叠加法

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）权值叠加，A权值为x，B权值为y，得到C（（A1 * x+B1 * y）,（A2 * x+B2 * y）,（A3 * x+B3 * y）,（A4 * x+B4 * y））
这样可以更方便条件A和B的音量的大小，比如A的权值为1.2，B的权值为0.8，那么A的声音相对提高了，B的声音相对减弱了。严格来说，直接叠加法和叠加求平均值法都属于该类型。

此外还有各种更复杂的混合算法，如动态权值法，A和B的权值会根据当前时刻采样点数值的大小进行动态变化，得到一个动态增益和衰减的混合方式。

下面是直接叠加法的实现，需要注意short值要按大端存储的方式计算，存储时按大端方式存储。

  /**
     * 叠加合成器
     * @author Darcy
     */
    private static class AddAudioMixer extends MultiAudioMixer{

        @Override
        public byte[] mixRawAudioBytes(byte[][] bMulRoadAudioes) {
            
            if (bMulRoadAudioes == null || bMulRoadAudioes.length == 0)
                return null;

            byte[] realMixAudio = bMulRoadAudioes[0];
            
            if(bMulRoadAudioes.length == 1)
                return realMixAudio;
            
            for(int rw = 0 ; rw < bMulRoadAudioes.length ; ++rw){
                if(bMulRoadAudioes[rw].length != realMixAudio.length){
                    Log.e("app", "column of the road of audio + " + rw +" is diffrent.");
                    return null;
                }
            }

            //row 代表参与合成的音频数量
            //column 代表一段音频的采样点数，这里所有参与合成的音频的采样点数都是相同的
            int row = bMulRoadAudioes.length;
            int coloum = realMixAudio.length / 2;
            short[][] sMulRoadAudioes = new short[row][coloum];

            //PCM音频16位的存储是大端存储方式，即低位在前，高位在后，例如(X1Y1, X2Y2, X3Y3)数据，它代表的采样点数值就是(（Y1 * 256 + X1）, （Y2 * 256 + X2）, （Y3 * 256 + X3）)
            for (int r = 0; r < row; ++r) {
                for (int c = 0; c < coloum; ++c) {
                    sMulRoadAudioes[r][c] = (short) ((bMulRoadAudioes[r][c * 2] & 0xff) | (bMulRoadAudioes[r][c * 2 + 1] & 0xff) << 8);
                }
            }

            short[] sMixAudio = new short[coloum];
            int mixVal;
            int sr = 0;
            for (int sc = 0; sc < coloum; ++sc) {
                mixVal = 0;
                sr = 0;
                //这里采取累加法
                for (; sr < row; ++sr) {
                    mixVal += sMulRoadAudioes[sr][sc];
                }
                //最终值不能大于short最大值，因此可能出现溢出
                sMixAudio[sc] = (short) (mixVal);
            }

            //short值转为大端存储的双字节序列
            for (sr = 0; sr < coloum; ++sr) {
                realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
                realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
            }

            return realMixAudio;
        }
        
    }

注意事项

音频的拼接和混音，有一些是需要注意和处理的。

需要确保A音频和B音频的采样位数一致。例如A音频是16位采样位数，B音频是8位采样位数，那么这时是不能直接拼接的，需要转换成相同的采样位数，才能做后续操作。
需要确保A音频和B音频的采样率一致。这个在录音和歌曲拼接时要特别注意，假如录音的音频频率是16000，歌曲的音频是44100，那么两者也是不能直接拼接的，需要转换成相同的采样率，转换采样率可以使用resample库。
需要确保A音频和B音频的声道数一致。当然这个并不是指单声道和双声道的音频不能合成了，事实上录音音频通常是单声道的，而歌曲通常是双声道的。单声道和双声道音频合成，一般是按双声道为基准，需要将单声道音频转换成双声道音频，转换原理也简单，将单声道的采样点数据多复制一份，比如将单声道的ABCD数据转换成双声道的AABBCCDD数据。

那么我们可能会有疑问，如果A音频和B音频的采样率位数，采样率，声道数不一样的话，合成后是有效的音频文件吗？这个其实是有效的，同样可以播放，但是会造成合成后的音频不同部分的音频播放速度不一样，例如单声道的A和双声道的B拼接，会造成A部分的播放速度比B的播放速度快一倍，而B的播放速度是正常的。

总结

到这里我想大家已经对音频的裁剪，拼接，混合的原理有了基本的了解了，不过大家可能会发现输出的音频都是WAV或者PCM格式的，而我最终需要的是MP3或者AAC等格式的音频，那么该如何转换呢？其实这个就是涉及到音频的编码了，mp3编码可以使用第三方库mp3lame，AAC编码可以使用Android自带的MediaCodec实现。

我的Github项目 AudioEdit

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

android音频编辑之音频合成

前言

音频拼接

情景一

情景二

情景三

情景四

音频混合

直接叠加法

叠加后求平均值

权值叠加法

注意事项

总结

推荐阅读更多精彩内容