(十)语音情感识别项目实战(上)

写这篇博客的时候正好在和某公司做一个语音情感识别相关的项目,所以距离上次更新微博也有好久了,但还是按照之前设定的计划把这块内容梳理下。主要是Follow下近几年的文章,代码方面由于git上开源的好的项目其实并不多,由于这个项目还在进行,我会选择性的给出一些解决方案!

        语音情感识别,顾名思义,就是通过语音来识别情绪,为什么会有这项任务呢?实际上NLP中的文本情感识别研究的热度比语音情感识别要高,那么一个简单的思路就是,能否通过音转字,然后再识别情绪呢?可以是可以,而且很多大公司比如科大讯飞的语音识别接口就很厉害,设置厉害到超出你的认知,but,语言的方言,语速,噪音这些问题还是存在一定的瓶颈的,也就是说,音转字的效果可能没那么好,所以语音情感识别的需求还是有必要的!

          接下来我就首先从学术的角度来梳理下这块的内容。

          首先看数据集,主要的公共数据集就2种,一个是IEMOCAP,另一个是柏林数据集EmoDb,两个数据集都比较小,前者的难度大一点,四分类,目前的精度也就在65左右,这个数据集的分布是这样的,10个人(5男,5女),5组对话,数据里面还有些视频动作啥的,所以有些任务设计了多任务学习来提升精度,测试的时候分10折,一个人做一次测试,最后把结果算均值,至于测试的指标UA,WA,UR,WR很多,大概就是这四个指标吧,下面这个图是我梳理的结果:

至于EmoDb这个数据集太小了,比较简单,这里就不做说明了。

           说完数据说特征,语音中的常用特征MFCC,Fbank,这些特征是语音的基本特征,原理我就不介绍了,属于数字语音处理的范畴,网上的介绍也很多,另外就是文章中会经常看到IS系列特征,这些事INTERSPEECH相关比赛提供的特征集,利用opensmile这个工具就可以提取,提取的特征集属于统计特征,当然可以设置成对整段语音的提取或者是对帧层面进行lld提取。

    (一)关于opensmile这里先简单就LINUX环境下安装和使用进行说明:

                        1.安装包下载:网址https://www.audeering.com/download/1318/

                        2.    解压openSMILE-2.3.0\ .tar.gz文件夹     tar zxvf openSMILE-2.3.0\ .tar.gz

                        3.进入该文件夹    cd opensmile-2.3.0

                        4.安装该软件

                                                        sh buildStandalone.sh

                                                        sh autogen.sh

                                                         ./configure

                                                         make -j4 ; make

                            5.确认是否安装成功        ./SMILExtract -h (若出现软件的用法信息则表示安装成功)

      (二) openSMILE使用说明

        现在开始使用openSMILE从wav文件中提取非常简单的音频特征文件。

       我们先使用openSMILE提供的示例配置文件。在openSMILE包的顶层目录中(user/..../opensmile/openSMILE-2.3.0/)  键入以下命令(如果在不同的目录中启动openSMILE,则须调整配置文件和 wave文件路径):

运行过程如下所示:

得到特征文件csv存储在顶层目录(这里可以设置下存储在新建的文件夹中便于下载)得到的csv文件打开:

这里我自己准备了一个Python的的opensmile接口,会和后续的相关代码一并上传。

关于特征集,这里做一个说明:

详细的说明可以看官方说明书和这篇博客

数据和特征说完了,接下来的部分就分别从文章和代码实践部分做一些介绍。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,744评论 0 10
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,928评论 2 89
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,306评论 0 9
  • 本篇文章十分的长,大概有2万7千字左右。 一、发展史 1、人脸识别的理解: 人脸识别(Face Recogniti...
    放飞人夜阅读 19,972评论 8 123
  • feisky云计算、虚拟化与Linux技术笔记posts - 1014, comments - 298, trac...
    不排版阅读 3,843评论 0 5