语音压缩编码基本概念

1、语音压缩编码

    通常把低于 64kbit/s 速率的语音编码方法称为语音压缩编码技术。

    常见的话音压缩编码方法有:

  • 自适应差值脉冲编码调制(ADPCM)
  • 子带编码(SBC)
  • 参数编码
语音信号压缩编码的国际标准.png
移动通信中语音信号的压缩编码标准.png

2、ADPCM编码

2.1、一阶预测与多阶预测

   仅由前邻样值进行预测称为一阶预测;由多个过去样值进行预测称为多阶预测,预测表达式如下:
一阶预测:
\hat{S(nT)}=W_{1}S(nT-T)
多阶预测:
\hat{S(nT)}=W_{1}S(nT-T)+W_{2}S(nT-2T)+...+W_{N}S(nT-NT)=\sum_{i=1}^{N}S(nT-iT)
显然多阶预测的精度要高一些,但复杂度也高。

2.2、DPCM编码

1)基本原理
    差值脉冲编码调制 DPCM,是利用语音信号的相关性,对相邻样值的差值进行编码。
d\left ( nT\right )=S(nT)-S(nT-T)
其中,S(nT)nT时刻的样值,S(nT-T)为前邻时刻的样值。
    对相邻样值的差值进行编码,实际是对样值S(nT)与过去的样值为基础得到的当前样值的估值(预测值)\hat{S(nT)}之间的差值进行量化编码的。
d\left ( nT\right )=S(nT)-\hat{S(nT)}

由输入信号进行预测的DPCM系统.png

2)DPCM的编码速率
    样值差值的动态范围比样值本身的动态范围小得多,则量化电平较少,在保证话音质量要求下,可降低编码速率。相比8位码的1路数码率为64kbit/s的PCM编码,DPCM相对差值编4位码,编码速率为32kbit/s。

    为了容易实现,常采用固定预测器。输入信号与预测信号的差值大,从而造成误差增大,话音质量受影响。故为了提高DPCM方式的质量选择采用自适应措施。

2.3、ADPCM编码

    在DPCM的基础上增加自适应预测自适应量化

  • 自适应预测的基本思想为,使均方预测误差为最小值,让预测系数的改变与输入信号幅值相匹配。
  • 自适应量化的基本思想为,使均方量化误差最小,让量化间隔\Delta (t)随输入信号的方差而变化,量化间隔\Delta (t)正比于输入信号的方差。即小信号采用小量化间隔,大信号采用大量化间隔。
       相比PCM、DPCM及APCM的话音质量,ADPCM由于采用了自适应量化和自适应预测,ADPCM的量化失真、预测误差均较小,因而它能在32kbit/s数码率的条件下达到PCM系统64kbit/s数码率的话音质量要求。

3、子带编码 SBC

3.1、子带编码 (SBC) 概念

   将输入的音频信号的频带分成若干个连续的频段,每个频带称为子带,然后针对各个子带中的音频信号采用不同的编码方案以降低码率,保证编码质量,但复杂度偏高。比如对于低频段采用较多的编码位数,对于高频段采用较少的编码位数,整体上降低码率。
   子带编码是波形编码和频域编码的结合,是属于混合编码。


子带编码器的工作原理框图.png

   将信号分为若干个子带进行编码有以下两个优点:

  • 对不同的子带合理地分配比特数,可以分别控制各子带的量化电平数目以及相应的重建信号的量化误差值,使误差谱的形状适应人耳听觉特性,获得更好的主观语音质量。由于语声的基础和共振峰主要集中在低频段,则要求保留比较高的精度,所以对低频段的子带可以用较多的比特数来表示其样值,而高频段可以分配比较少的比特。
  • 各子带的量化噪声相对独立,被束缚在各自的子带内,这样就能避免输入电平较低的子带信号被其他子带的量化噪声所淹没。

3.2、子带编码 (SBC) 的带宽分配

  • 等带宽子带编码
    \Delta B{_{k}}=\Delta B=B/M
    其中, \Delta B{_{k}} 为每个子带的频带宽度, B为信号的总宽带, m为划分子带的个数。
  • 变带宽子带编码
    \Delta B{_{k+1}}> \Delta B_{k}
       低频段的子带带宽较窄,高频段较宽。这样划分不仅和语音信号的功率相匹配,而且也和语音信号的可懂度或清晰度随频率变化的关系相匹配。

3.3、子带编码 (SBC) 的编码速率

   子带编码中,编码所需要的总速率 I 为
I = \sum_{k=1}^{m}f_{sk}R_{k}
其中,f_{sk}=2\Delta B_{k} 为第 k 个子带的抽样频率,每个样值采用 R_{k} 位比特编码。
比如若设等带宽子带宽编码的编码速率为
\Delta B_{k}=\frac{B}{m}

f_{sk}=2\Delta B_{k}=2\frac{B}{m}
若各子带样值编码比特数的平均值为R
则有:
I=\sum_{k=1}^{m}f_{sk}R_{k}=2BR

例如,一个4个子带的SBC系统,子带分别为[0800],[8001600],[16002400],[24003200],即为等带宽子带编码且每个子带的带宽为800Hz,如果忽略同步的边带信息,子带的比特分配分别为3,2,1,0 比特/样值(即每个子带的编码位数R_{k} ),则SBC编码系统总的传输速率为
I=\sum_{k=1}^{m}f_{sk}R_{k}=2\frac{B}{m}\sum_{k=1}^{m}R_{k}=2\times \frac{3200}{4}\times (3+2+1+0)= 9.6 kbit/s

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前言: 记载资料多为网络搜集,侵删。 根据最近接触的整机项目做了一些整机音频相关基础知识的总结,如有不足或表述问题...
    Gawain_Knowknow阅读 8,259评论 0 4
  • 在这个全民直播时代,用户对视觉信息表达越来越重视,也越来越强调提高视频主观质量的需求,今天,我们就带着这些用户问题...
    碎心石7阅读 1,423评论 0 2
  • 语音信号编码的主要内容 1)语音信号编码的基本概念 2)PCM通信系统的构成 3)抽样 4)量化 5)编码与解码 ...
    starmier阅读 2,467评论 0 0
  • 1 序 数字媒体技术是迷人的,但是它又充满魔力,吸引了很多开发者投入到该领域中。但是从一名开发者的角度,如何从零开...
    RichardJieChen阅读 2,472评论 0 3
  • 信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据=信息+数据冗余。音频信号在时域和频域上具有相关性,...
    轻口味阅读 1,136评论 0 2