上文说过客户端有两种实现语音识别,我们都曾经试验和才用过,先说对于客户端来说相对简单的非实时方案。对于实时性要求不高的应用来说,一般是足够满足需求的,微信中的语音识别也是这种非实时的语音方案。(当然还有不需要连接网络,通过客户端本地来实现语音识别的,讯飞和其他几家都有这种SDK,但是体积相对来说比较大,对于语音识别是辅助功能的App来说,可能没有必要)。
对于IOS客户端来说,系统提供了两个层次的API来提供对录音功能的支持。一种是使用比较底层的纯C代码通过AudioToolBox库中提供的相关接口来实现的,一种是使用OC代码通过AVFoundation中的AVAudioRecorder来实现。前一种更加底层实现起来更加难,但是可以实时获取录音过程中的PCM源码,实现实时录音、上传和识别的功能。后一种,实现起来容易,不过无法实时获取相关的录音数据,只能将全部录音完成以后再上传。
前一种苹果在2012年曾经公布了一个示例代码SpeakHere来通过AudioToolBox来实现整个录音和播放的过程。不过现在在苹果的网站上找不到了,因为其中很多的代码已经被废弃。在github上有人上传了上去,地址是https://github.com/benvium/SpeakHere。
整个代码虽然是纯c实现的,但是如果只用它来录音的很简单的。基本流程如下:
1.创建一个AQRecorder
recorder =newAQRecorder();
2.初始化AudioSession
OSStatuserror =AudioSessionInitialize(NULL,NULL, interruptionListener, self);
3.设置AudioSession的各种属性
UInt32 category =kAudioSessionCategory_PlayAndRecord;
error = AudioSessionSetProperty(kAudioSessionProperty_AudioCategory,sizeof(category), &category);
4.激活AudioSession
error =AudioSessionSetActive(true);
5.开始录音
recorder->StartRecord(CFSTR("recordedFile.caf"));
其中3中的AudioSession可以设置的属性有很多,其中比较重要的或者经常用到的有如下几个:
enum { // typedef UInt32AudioSessionPropertyID
kAudioSessionProperty_AudioCategory= 'acat',
//UInt32(get/set)主要是设置AudioSession的类别,如果纯粹是录音的话就设置为RecordAudio,录音和播放都有的话就需要设置为PlayAndRecord,其他的很少用到
kAudioSessionProperty_OtherMixableAudioShouldDuck= 'duck',
// UInt32(get/set)如果当前允许混合模式(例如允许在后台播放音乐的同时播放当前app的声音或者录音),后台 的这个声音就会变小,前台的app的声音会相对较大
kAudioSessionProperty_OverrideCategoryMixWithOthers= 'cmix',
// UInt32(get, some set)如果AudioCategory的设置为PlayAndRecord,设置这个参数就允许后台音乐和当前app的声音混合来播放,或者一边播放后台音乐一边录音
kAudioSessionProperty_OverrideCategoryDefaultToSpeaker= 'cspk',
// UInt32(get, some set) )如果AudioCategory的设置为PlayAndRecord,设置这个参数默认就会从speaker发出声音,通常情况下是从receiver发出声音的
kAudioSessionProperty_OverrideCategoryEnableBluetoothInput= 'cblu',
// UInt32(get, someset)如果AudioCategory的设置为PlayAndRecord,设置这个参数默认就会允许蓝牙耳机接收和输出音频
};
实际上除了这种c的方式设置category还可以通过oc的方式来设置,c的这些函数实际上很多已经被废弃,但是仍然可以使用。OC的代码如下所示:
[[AVAudioSession sharedInstance]setCategory:AVAudioSessionCategoryPlayAndRecordwithOptions:AVAudioSessionCategoryOptionMixWithOthers error:&activeError];
其中4是激活audioSession,因为整个app和系统使用的都是同一个audioSession,如果在app中激活audioSession并且不是设置为混合模式的话,会停止正在播放的其他声音和音乐。他也有一个对应的oc的方法。
[[AVAudioSession sharedInstance] setActive:NO withOptions: AVAudioSessionSetActiveOptionNotifyOtherOnDeactivationerror:&activeError];
Oc种方法中间的一个参数很重要,如果设置为AVAudioSessionSetActiveOptionNotifyOtherOnDeactivation,那么当前应用将当前已经激活的audioSession设置为非激活状态时,其他的后台音乐或者播放app就会收到通知,此时他们就可以选择继续播放后台音乐了。
C方法和oc方法按照道理来说,底层的实现都是一样。但是在我们的实际编写代码过程中发现,有时在用oc方法设置为active之后用c方法设置为非active并不起作用。所以还是推荐大家使用oc的方式来设置。而且对于一个在多处使用音频的应用来说,需要很好的设置active和非active。如果进入的时候设置为active最好在退出的时候设置为非active。而且首次设置为active的时候这是一个耗时的操作,如果此时有后天正在播放的因为,这个过程可能需要0.5秒钟,不过一般来说不会这么长时间。
5中开始录音的话,就涉及到录音格式的选择。Pcm源码是最清晰的但是体积也最大的录音文件格式。除了pcm以外,还有其他的稍微小的格式,例如ALaw、ULaw、IMA4、MPEG4AAC。但是每一种格式都需要设置好相应的参数。其中主要的参数包括:采样率、单双声道、还有各种参数需要设置。其中PhoneGap工程中有部分代码实现了对各种格式的音频文件参数的设置,可以供大家参考。
kAudioFormatLinearPCM:
mFormatFlags =kLinearPCMFormatFlagIsSignedInteger | kLinearPCMFormatFlagIsPacked;
mBitsPerChannel =16;
mChannelsPerFrame= 1;
mBytesPerFrame =2;
mFramesPerPacket= 1;
mSampleRate = 16000;
mBytesPerPacket =2;
kAudioFormatALaw:
kAudioFormatULaw:
mSampleRate =16000.0;
mFormatFlags = 0;
mFramesPerPacket= 1;
mChannelsPerFrame= 1;
mBitsPerChannel =16;
mBytesPerPacket =1;
mBytesPerFrame =1;
kAudioFormatAppleIMA4:
mSampleRate =16000.0;
mFormatFlags = 0;
mChannelsPerFrame= 1;
mBitsPerChannel =0;
mFramesPerPacket= 64;
mBytesPerPacket =68;
kAudioFormatAppleLossless:
mFormatFlags = 0;
mSampleRate =16000.0;
mBitsPerChannel =0;
mFramesPerPacket= 4096;
mBytesPerFrame =0;
mChannelsPerFrame= 1;
mBytesPerPacket =0;
kAudioFormatMPEG4AAC:
mFormatFlags = 0;
mBitsPerChannel =0;
mSampleRate =16000.0;
mChannelsPerFrame= 1;
mBytesPerPacket =0;
mBytesPerFrame =0;
mFramesPerPacket= 1024;