声纹识别 | 快速概览 + 了解N:N聚类算法是如何应用的

关于声纹识别的N:N聚类算法

本文将从如下方面为你一一解读:

什么是声纹?

声纹识别的原理

声纹识别的三个应用大类:1:1,1:N,N:N

N:N聚类分析的技术原理与应用流程,应用场景

声纹识别的几类攻击

I. 什么是声纹?

声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。

II. 声纹识别的原理

III. 声纹识别的三个应用大类:1:1,1:N,N:N

1.  1:1 说话人确认

1:1 说话人确认是确认说话人身份的方法,针对“对于同样的文本内容,有两段录音,这两段录音到底是不是出自一人之口”这样的问题,也就是“两句话到底是不是一个人说“的问题;该类场景相对简单,主要应用于用户的注册和验证,以及APP内的声纹核身;

2.  1:N 说话人确认

1:N说话人辨认是辨认说话人身份的方法,针对“对于一段语音,需要迅速在样本库中进行搜寻比对,以确认这段语音与样本库中哪段语音相似度最高”,也就是说“给定的一段语音属于样本库中谁说的”的问题;该类场景比较常见,主要应用于黑名单用户进线检测,提高安防能力等。

3.  N:N说话人聚类 

IV.  N:N聚类分析的技术原理与应用流程,应用场景

对于千亿级别的无标签录音文件,如何做有效的处理?举个例子,假如说你有很多的语音片段(语音的文本内容是相同的),这些语音片段分别归属于甲乙丙丁等人,仅凭人耳辨识是无法分辨出哪些语音片段属于甲,哪些语音片段属于乙,通过N:N聚类的算法,进行声纹的相似度检测,将属于同一个人说话的语音片段不断进行合并归类,最后属于甲说话的语音片段全部被归为一类,属于乙说话的语音片段全部被归为一类,以此类推,类内语音的相似度极高,类间语音的相似度较低,达到将这些语音片段分人整理的目的;

简单介绍一下聚类分析:聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。聚类效果的好坏依赖于两个因素:1.衡量距离的方法(distance measurement) 2.聚类算法(algorithm)

目前主流的说话人聚类算法是在说话人分割的基础上,基于贝叶斯信息判据,采用凝聚分层聚类算法,直接对说话人分割后的语音段进行判决,将属于同一个说话人的语音段合并为一类。其基本思想是从每个语片段中提取特征参数,例如梅尔倒谱参数,计算每两个语音段之间特征参数的相似度,并利用BIC判断相似度最高的两个语音段是否合并为同一类。对任意两段语音都进行上述判决,直到所有的语音段不再合并。---摘自“说话人聚类的初始类生成方法”

聚类&声纹识别的主要场景:在跨渠道,跨场景收集语音同时建立声纹库的时候,由于各场景应用的客户账号或许不同,说话人在不同场景中分别注册过声纹,难以筛除重复注册语音,建立统一声纹库;我们如何快速的去筛除属于某一个人在不同情况下录制的多条录音文件?也就是如何保证最终留下的录音文件(声纹库)是唯一的?每一个人只对应一条音频,这就要用到聚类的算法;利用声纹识别N:N说话人聚类,对所有收集到的语音进行语音相似度检测,将同一说话人在不同场景中的多次录制的语音筛选出来,并只保留其中一条,从而保证了声纹库的独特性,节省了大量的人力成本,资源成本。

对于目前的场景,我们选择凝聚层次聚类算法,在这种场景下,我们是要筛除重复人说话,那么我们可以将每一个录音文件都当作一个独立的数据点,看最后有凝聚出多少个独立的数据簇,此时可以理解为类内都是同一个人在说话;

1. 我们首先将每个数据点(每一条录音文件)视为一个单一的类,即如果我们的数据集中有 X 个数据点,那么我们就有 X 个类。然后,我们选择一个测量两个类之间距离的距离度量标准。作为例子,我们将用 average linkage,它将两个类之间的距离定义为第一个类中的数据点与第二个类中的数据点之间的平均距离。 (这个距离度量标准可以选择其他的)

2. 在每次迭代中,我们将两个类合并成一个。这两个要合并的类应具有最小的 average linkage。即根据我们选择的距离度量标准,这两个类之间的距离最小,因此是最相似的,应该合并在一起。 

3. 重复步骤 2 直到我们到达树根,即我们只有一个包含所有数据点的类。这样我们只需要选择何时停止合并类,即何时停止构建树,来选择最终需要多少个类---摘自知乎

按照实际的场景,如果我们最终要得到1000个不重复的录音文件,为了防止过度合并,定义的退出条件是最后想要得到的录音文件数目;


处理的流程图
聚类模拟图


V. 声纹识别的几类攻击及其策略

1. 录音重放攻击: 攻击者录制目标说话人的语音进行播放,以目标人身份试图通过声纹识别系统的认证。

策略:基于随机内容声纹的检测技术:利用随机数字的不确定性,用户在规定的时间内(5-10S)需要念出指定的随机内容,如果超时,则随机内容更新; 因为对于录音重放的内容是固定的,很不灵活,所以比较容易做限制

2. 波形拼接攻击

攻击者将目标说话人的语音录制下来,通过波形编辑工具,拼接出指定内容的语音数据,以放音的方式假冒目标说话人,试图以目标人身份通过声纹识别系统的认证。

策略:同录音重放

3.语音合成攻击

攻击者用语音合成技术生成目标说话人的语音,以放音的方式假冒目标说话人,试图以目标人的身份通过声纹识别系统的认证。

策略:1. 同录音重放 

           2. 利用活体检测技术,加强算法的识别度

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容

  • 声纹锁与声纹识别技术原理解析 声纹锁的工作原理是什么?声纹识别技术原理是怎样的?声纹锁也是智能门锁的新兴品种。利用...
    小宋是么阅读 1,924评论 2 1
  • 悲伤是什么滋味?孩子周末突然跟我说要寻找悲伤的感觉;悲伤流泪的感觉。不禁哑然,真是太幸福了,不知愁滋味。 ...
    lianxinyike阅读 363评论 0 0
  • 也曾热热闹闹爱一场,也曾轰轰烈烈拼一回。 【1】 番茄是蔬菜界一个神奇的存在。她生于平凡,起于微末,却活成了一个传...
    无鱼awu阅读 1,472评论 3 16
  • 作者:京(来自豆瓣) 上了火车已是晚上九点半,安顿好笨重的行李,爬上各自床铺。火车缓缓启动。窗外,远处灯火阑珊...
    舰一阅读 163评论 0 0
  • 第一篇作品应该是小学二年级的时候完成的,那时候的语文老师按照现在的话来说算是斜杠青年或者文艺青年,让我们这些小不...
    好文字儿阅读 191评论 0 0