一,核心概念
1. 概念介绍
人在说话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔等)在尺寸和形态方面每个人的差异很大,所以使得任何两个人的声纹图谱都存在差异。因此在一般情况下,通过声纹识别技术可以区分不同的个体。声纹识别是生物特征识别的一种,是指通过专用的电声转换仪器将声波特征绘制成波谱图形,与已经注册过的声纹模型对比,从而区分不同的个体,实现身份校验功能。与指纹识别等常见的生物特征识别方式相比,声纹识别具有获取方便自然、使用简单、能远程验证等优点。
2. 声纹识别技术原理
语音信号通过音频采集设备进入系统后,首先进入预处理阶段。预处理包括端点检测和噪声消除等环节,端点检测环节对输入的音频流进行分析,自动删除音频中静音或非人声等无效部分,保留有效语音。噪声消除环节滤除背景噪声,满足用户在不同环境下使用需求。
经过预处理后的语音信号进入特征提取阶段,从说话人的语音信号中提取出能够表征说话人特定器官结构或行为习惯的频谱特征参数。该特征参数对同一说话人具有相对稳定性,不随时间或环境变化而变化,对同一说话人的不同话语一致,具有不易模仿性和较强的抗噪性。
提取到的个人声纹特征参数通过声纹识别系统的学习训练,生成用户专有的声纹模型。存储在声纹模型数据库中,与用户ID一一对应。
当需要进行声纹识别时,声纹识别系统将采集到的语音信号进行预处理、特征提取后,得到待识别的特征参数,与声纹模型数据库中某一用户的模型或全部模型进行相似性匹配,得到特征模式之间的相似性距离度量,通过选取适当的距离度量作为门限值,得出识别结果并输出。
二,识别类型
1. 按应用场景分类
一对一:身份确认,即在知道是某人身份的情况下,判断音频是不是此人的声音。例如在银行app,当前已经登录账户,在进行转账或其它操作时,需要判断是否本人在操作,这时候就可以通过一对一场景下的声纹识别,判断是不是登录的账号本人。
一对多:身份辨认,在一个注册了很多声纹用户组中,根据音频判断是其中的哪个人的声音。比如很多人用微信注册了声纹,然后用声纹锁登录时,需要判断在所有已注册声纹的用户中,音频对应的是其中哪个人,在很多的注册用户中,找到音频对应的声音身份。
多对多(声纹聚类):在一些杂乱的音频中,找出特征相似(某个人)的所有音频,则可以通过音频之间的对比,把相似的音频归为一类,从而选出特征相似(同一个人)所有音频。
2. 按音频内容分类
文本相关:文本相关指的是说出规定的短句(一般为4到6个字的短句),用于声纹识别。例如在智能音箱唤醒的时候,可以根据音色判断唤醒人的身份 ,如果是小孩子唤醒则可以开启儿童模式,如果是未提前注册的则不能进行唤醒音箱。
文本半相关(随机数字串):指的是随机的6位或8位数字串,这是一种配合式的声纹识别模式,需要读出app或者其它客户端生成的6位或8位数字串,也可以结合语音识别技术(ASR)判断读的数字串是否正确。目前文本半相关的声纹识别模式在生活中接触到的最多,许多银行类的APP,以及微信和支付宝声纹识别都采用的这种方式,方便读、识别率也高。所以很多APP上的声纹识别身份认证一般都采用一对一的随机数字串。
文本无关:指的是没有文本规定,没有语言限制,只需要有某人的声音,就可以进行声纹识别,有一种场景是需要知道某段音频说话人的身份,但是音频是随机说的一些内容,需要对这些音频进行声纹识别,这种就是文本无关的识别方式。像警方的需求就比较多一些,因为警方可以拿到很多案件中关键性的音频,需要判断音频人的身份。以及在电话端的无感知声纹识别,不管电话里在说什么内容,都可以进行识别,判断对方的身份。
当然,只有进行了声纹注册,才能通过以上的声纹识别模式进行声纹确认(一对一)或身份辨认(一对多)。
三, 指标
声纹识别的指标主要分为性能指标和效果指标(其实就是有个人工智能的影响因素算力和算法的效果),下面按照应用场景的分类介绍。
1. 一对一
1)效果指标:一对一的声纹识别测试主要有两个指标,分别是错误接受率(FAR)和错误拒绝率(FRR)。
错误接受率(FAR)=被错误接受的样本数/应被拒绝的样本数*100%
将错误人的声音误认为是当前注册人的声音,声纹识别成功。
错误拒绝率(FRR)=被错误拒绝的样本数/应被接受的样本数*100%
将正确人的声音误认为不是当前注册的声音,声纹识别错误。
当错误接受率(FAR)等于错误拒绝率(FRR)时,称为等错误率(EER)。
FAR和FRR是此消彼长的两个数值,随着FAR值的上升,FRR值将下降;随着FAR值得下降,FRR值将上升。在坐标轴中,两条曲线会有一个交点,此交点就是EER的值,次图标曲线称作ROC曲线,感兴趣的朋友可以自行搜索了解。
FAR和FRR的值在实际应用中是可调节的,通过调节得分阈值来控制FAR和FRR的值,按照百分制举例,当阈值设置在80分,只有音频得分在80分以上,才判定此音频是某人的声音;当阈值设置为60分时,在得分60分以上的音频判定为是某人的声音,很明显80分阈值的FRR比60分的FRR的值高(数值高代表效果不好),则相应的80分的FAR值低。但并不是阈值设置的越高越好,也要根据实际应用场景设置,例如在金融领域,对于安全性的要求很高,则可以使FAR的值非常低(金融行业声纹指标要求:随机数字串一对一识别,FAR=0.5%,FRR≤3%,对于目前的声纹识别技术,已经是很高的指标要求),这样确保安全。宁可识别错自己,也不让别人识别成自己,避免识别错误造成巨大的损失。在声纹识别打卡的情况下,就可以把FRR的值设置低一些,即可以更大概率的识别出自己,而不是拒绝自己,这样方便进行打卡。
2)性能指标:对于声纹识别的一对一的性能测试,当用户开始进行声纹识别到返回识别结果的时间。
声纹识别一对一的性能测试,不随着注册用户数量的增大而改变,主要和服务器的配置有关,一般响应时间都是小于1s的。
2. 一对多
1)效果指标:一对多的声纹识别效果指标主要是准确率,在一定的注册用户数下(1w 10w 50w 100w 200w 500w),得到top1,top3,top5的准确率。随着注册用户数的增加,正确率呈下降趋势。
2)性能指标:一对多场景下的性能测试跟声纹注册的用户数有着密切的关系,随着注册用户数的增加,性能数据下降。当前市场上数据量大的在百万左右,确保一对一百万的声纹识别响应时间在2s以内,即可商用。
四. 技术边界
声纹识别目前在生活场景中应用比较少,主要是受到一些自身技术以及实际场景中的因素影响。主要有以下三个方向的影响:
1. 技术方面
1)跨信道识别
声纹识别的跨信道情景有两种,一种是设备之间的跨信道,一种是音频采样率不同导致的跨信道。
设备之间跨信道:我们在采集声纹注册音频和验证音频时,如果用的设备不一样,会出现跨信道的情况,比如用不同的手机,不同的采音设备都会影响到声纹识别的准确性。
采样率之间跨信道:不同的音频采样率声纹识别效果不同,声纹识别的音频采样率一般是8k和16k。如果声纹注册用的是8k采样率的音频,声纹验证时是16k采样率的音频,会对识别结果有一定的影响。
跨信道识别在真实的生活场景中是不可避免的,对声纹识别效果有一定的影响。所以解决跨信道问题,是声纹识别技术得到广泛应用的一个前提。
2)音频噪声
在实际的生活场景中,我们在注册或者识别时,身边的环境可能会很嘈杂,音频中有或多或少的噪声,会对声纹识别造成影响,在环境不确定的情况下,声纹识别的验证准确率也是不能保证的, 受到环境的影响。
3)多人场景
声纹识别主要是确认或辨认一个人的身份,但是当音频中同时出现多个人的声音时,会对声纹识别有很大的影响,多人的声音混在一起很难识别出来。在现实生活中,有些场景的音频中含有多人的声音,例如在公安的场景中,拿到的音频可能会有很多人的声音,会对识别准确率有很大的影响。
2. 人自身方面
1)时变
随着人年龄的不断增大,声音也会随着年龄的增加而改变,一个人从小到大,声音会发生多次的变化。如果声纹注册和声纹验证的时间间隔比较久,则识别准确率相比时间间隔短的识别准确率要低一些,因为随着时间的变化,声音也发生了变化,准确率就会下降。
2)身体状况
当在感冒生病的情况下,人的声音会发生变化,和原来的声音有一定的差异,这时候声纹识别的准确率就会下降,声纹识别是根据人的一些声音特征来判断的,这些特征发生了改变,整体的识别结果就会发生改变,人也会时常出现生病感冒的情况,生病之后嗓子会变哑,这样会影响声纹识别的结果。
3)发音的方式
有些人会用声音模仿他人的声音,,当用模仿的声音进行声纹识别时,会对识别准确率有很大的影响。还有在不同场景,说话的语速,音量,语气都不同,对声纹识别也是会有一定的影响。
3. 声纹攻击
声纹识别主要是用来对于某人身份的确认或辨认,所以会出现伪冒声音识别的情况,可以通过多种方式用伪冒的声音攻击声纹技术,例如语音合成,音色转换,模仿音,录音等。目前声纹识别在放伪冒攻击上需要下一定的功夫,但是当前的声纹识别技术,对于攻击的预防程度不够,整体安全性不高。
五. 应用需求
当前声纹识别技术需求最多且容易落地的就是金融行业银行app,16K随机数字串一对一的场景。且在18年10月9日,《移动金融基于声纹识别的安全应用技术规范》(JR/T 0164—2018)金融行业标准由中国人民银行正式发布。进一步促进金融行业对于声纹识别技术的认可。且银行app 这种应用场景相对简单,容易落地。还有一个场景是电话端无感知的声纹识别,在通话过程中,通过电话中的音频进行声纹识别,8K文本无关一对一或者一对多的场景,这个需求还是比较多的,但是当前的声纹识别技术并不能很好的满足这些需求,8K文本无关的声纹识别技术准确率还是比较低的,且受到环境等各方面的影响,当前还不能满足这种场景需求。
下面的应用场景是在项目中遇到比较多的一些需求,具体如下:
六. 生物特征识别技术的对比
生物识别技术是指通过对人体各个部位的识别,验证某个人身份的技术。目前主要有指纹识别,虹膜识别,人脸识别,静脉识别,声纹识别等。每种技术都有自己的利弊,主要讲一下声纹识别技术和人脸识别技术的区别。
人脸识别是这几年比较火的生物特征识别技术,且已经应用于各种各样的应用场景中,那目前的声纹识别技术和很火的人脸识别技术相比,有什么不同呢,或者有什么优势呢?
首先声纹识别是支持远场景识别的,比如电话端无感知的声纹识别,这点是人脸识别技术或者其他识别技术不能支持的,是声纹识别独有的特色。那除了远场景,在近场的识别中,声纹识别有什么优势呢?或者有哪些场景可以替代很火的人脸识别吗?最近疫情严重,大家都带着口罩,但是很多场景都需要进行身份认证,摘口罩不是很安全,这时候就可以用到声纹识别技术,不需要摘口罩。还有在电梯中,有些电梯是需要身份认真才能到相应的楼层,有些就有人脸识别的电梯,但是就会涉及到身高的问题,设置高了,小孩识别不到。设置低了,大人要弯腰,体验不是很好。这时候就体现出声纹识别的优势,不受到位置地域的限制,可以使用声纹识别,大人小孩在电梯里通过声纹控制都可以控制电梯,这也是声纹识别的优势。
七. 声纹识别厂商
目前有一些专做声纹识别技术的厂商,探索声纹识别技术的应用场景。
得意音通:得意音通算是声纹识别技术的头部?中国人民银行发布的《移动金融基于声纹识别的安全应用技术规范》是在得意音通的参与下一起设定发布的。得意音通也是第一家获得声纹识别技术的“金融科技产品认证证书”企业。毋庸置疑,当前得意音通的声纹识别技术和产品也是顶尖的。
快商通:快商通也是一家做声纹识别技术的企业,具体详情不是很清楚。
远鉴科技:远鉴科技也是一家声纹识别厂商,主要针对安防行业,金融行业涉及比较少。
以及还有科大讯飞,声扬,国音,接通华声等厂商也有声纹技术。但是互联网大厂目前还没有入场,可能目前落地应用情况不好,变现能力差,技术成熟度不高。