语音识别的客户端侧实现

上文说过客户端有两种实现语音识别,我们都曾经试验和才用过,先说对于客户端来说相对简单的非实时方案。对于实时性要求不高的应用来说,一般是足够满足需求的,微信中的语音识别也是这种非实时的语音方案。(当然还有不需要连接网络,通过客户端本地来实现语音识别的,讯飞和其他几家都有这种SDK,但是体积相对来说比较大,对于语音识别是辅助功能的App来说,可能没有必要)。

对于IOS客户端来说,系统提供了两个层次的API来提供对录音功能的支持。一种是使用比较底层的纯C代码通过AudioToolBox库中提供的相关接口来实现的,一种是使用OC代码通过AVFoundation中的AVAudioRecorder来实现。前一种更加底层实现起来更加难,但是可以实时获取录音过程中的PCM源码,实现实时录音、上传和识别的功能。后一种,实现起来容易,不过无法实时获取相关的录音数据,只能将全部录音完成以后再上传。

前一种苹果在2012年曾经公布了一个示例代码SpeakHere来通过AudioToolBox来实现整个录音和播放的过程。不过现在在苹果的网站上找不到了,因为其中很多的代码已经被废弃。在github上有人上传了上去,地址是https://github.com/benvium/SpeakHere

整个代码虽然是纯c实现的,但是如果只用它来录音的很简单的。基本流程如下:

1.创建一个AQRecorder

    recorder =newAQRecorder();

2.初始化AudioSession

    OSStatuserror =AudioSessionInitialize(NULL,NULL, interruptionListener, self);

3.设置AudioSession的各种属性

    UInt32 category =kAudioSessionCategory_PlayAndRecord;

    error = AudioSessionSetProperty(kAudioSessionProperty_AudioCategory,sizeof(category), &category);

4.激活AudioSession

    error =AudioSessionSetActive(true);

5.开始录音

    recorder->StartRecord(CFSTR("recordedFile.caf"));

其中3中的AudioSession可以设置的属性有很多,其中比较重要的或者经常用到的有如下几个:

enum { // typedef UInt32AudioSessionPropertyID

    kAudioSessionProperty_AudioCategory= 'acat',

    //UInt32(get/set)主要是设置AudioSession的类别,如果纯粹是录音的话就设置为RecordAudio,录音和播放都有的话就需要设置为PlayAndRecord,其他的很少用到

    kAudioSessionProperty_OtherMixableAudioShouldDuck= 'duck',

    // UInt32(get/set)如果当前允许混合模式(例如允许在后台播放音乐的同时播放当前app的声音或者录音),后台 的这个声音就会变小,前台的app的声音会相对较大

    kAudioSessionProperty_OverrideCategoryMixWithOthers= 'cmix',

    // UInt32(get, some set)如果AudioCategory的设置为PlayAndRecord,设置这个参数就允许后台音乐和当前app的声音混合来播放,或者一边播放后台音乐一边录音

    kAudioSessionProperty_OverrideCategoryDefaultToSpeaker= 'cspk',

    // UInt32(get, some set) )如果AudioCategory的设置为PlayAndRecord,设置这个参数默认就会从speaker发出声音,通常情况下是从receiver发出声音的

    kAudioSessionProperty_OverrideCategoryEnableBluetoothInput= 'cblu',

    // UInt32(get, someset)如果AudioCategory的设置为PlayAndRecord,设置这个参数默认就会允许蓝牙耳机接收和输出音频

};

实际上除了这种c的方式设置category还可以通过oc的方式来设置,c的这些函数实际上很多已经被废弃,但是仍然可以使用。OC的代码如下所示:

[[AVAudioSession sharedInstance]setCategory:AVAudioSessionCategoryPlayAndRecordwithOptions:AVAudioSessionCategoryOptionMixWithOthers error:&activeError];

其中4是激活audioSession,因为整个app和系统使用的都是同一个audioSession,如果在app中激活audioSession并且不是设置为混合模式的话,会停止正在播放的其他声音和音乐。他也有一个对应的oc的方法。

[[AVAudioSession sharedInstance] setActive:NO withOptions: AVAudioSessionSetActiveOptionNotifyOtherOnDeactivationerror:&activeError];

Oc种方法中间的一个参数很重要,如果设置为AVAudioSessionSetActiveOptionNotifyOtherOnDeactivation,那么当前应用将当前已经激活的audioSession设置为非激活状态时,其他的后台音乐或者播放app就会收到通知,此时他们就可以选择继续播放后台音乐了。

C方法和oc方法按照道理来说,底层的实现都是一样。但是在我们的实际编写代码过程中发现,有时在用oc方法设置为active之后用c方法设置为非active并不起作用。所以还是推荐大家使用oc的方式来设置。而且对于一个在多处使用音频的应用来说,需要很好的设置active和非active。如果进入的时候设置为active最好在退出的时候设置为非active。而且首次设置为active的时候这是一个耗时的操作,如果此时有后天正在播放的因为,这个过程可能需要0.5秒钟,不过一般来说不会这么长时间。

5中开始录音的话,就涉及到录音格式的选择。Pcm源码是最清晰的但是体积也最大的录音文件格式。除了pcm以外,还有其他的稍微小的格式,例如ALaw、ULaw、IMA4、MPEG4AAC。但是每一种格式都需要设置好相应的参数。其中主要的参数包括:采样率、单双声道、还有各种参数需要设置。其中PhoneGap工程中有部分代码实现了对各种格式的音频文件参数的设置,可以供大家参考。

kAudioFormatLinearPCM:

    mFormatFlags =kLinearPCMFormatFlagIsSignedInteger | kLinearPCMFormatFlagIsPacked;

    mBitsPerChannel =16;

    mChannelsPerFrame= 1;

    mBytesPerFrame =2;

    mFramesPerPacket= 1;

    mSampleRate = 16000;

    mBytesPerPacket =2;


kAudioFormatALaw:

kAudioFormatULaw:

    mSampleRate =16000.0;

    mFormatFlags = 0;

    mFramesPerPacket= 1;

    mChannelsPerFrame= 1;

    mBitsPerChannel =16;

    mBytesPerPacket =1;

    mBytesPerFrame =1;

kAudioFormatAppleIMA4:

    mSampleRate =16000.0;

    mFormatFlags = 0;

    mChannelsPerFrame= 1;

    mBitsPerChannel =0;

    mFramesPerPacket= 64;

    mBytesPerPacket =68;

kAudioFormatAppleLossless:

    mFormatFlags = 0;

    mSampleRate =16000.0;

    mBitsPerChannel =0;

    mFramesPerPacket= 4096;

    mBytesPerFrame =0;

    mChannelsPerFrame= 1;

    mBytesPerPacket =0;

kAudioFormatMPEG4AAC:

    mFormatFlags = 0;

    mBitsPerChannel =0;

    mSampleRate =16000.0;

    mChannelsPerFrame= 1;

    mBytesPerPacket =0;

    mBytesPerFrame =0;

    mFramesPerPacket= 1024;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,743评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,296评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,285评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,485评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,581评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,821评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,960评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,719评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,186评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,516评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,650评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,936评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,757评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,991评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,370评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,527评论 2 349

推荐阅读更多精彩内容