SiriKit 从6月份的 WWDC2016 推出已经有一段时间了,不少应用也慢慢的适配了Siri,但是可能很多童鞋还没有来得及去试试,下面我们先试一下:
我们可以在在设置里查看已经适配Siri 的应用,可以在这里将应用打开权限,也可以在Siri 触发的时候通过提示来打开。
SiriKit 是以 Extension 的方式来给已有App 来提供支持,就目前Siri 支持的intent来说,还是有很多使用的限制,只能针对特定的词汇通过命令来进行识别处理。这里不介绍如何使用SiriKit ,下面我想利用iOS中 目前已经公开的其他 API 实现一个应用内的语音助手,来理解Siri 的实现。
其实想要实现Siri,我们只需要先将语音进行识别,然后再将语音内容进行分析,然后再将分析出来的结果进行输出,当然这输出不只是语音,也可能是一些反馈信息和一些事件处理。
下面我们先来实现语音识别。
语音识别
Speech framework 也是在WWDC 2016 推出的一个语音识别框架,并且支持多种语言,Siri 也是基于此框架来进行语音识别。还在iOS 3 、4 时代的时候就已经开始有一些第三方的语音识别框架,但那时候不是价格高就是识别不精准,导致很多应用软件对语音识别都望而却步。但目前的语音识别技术都已经炉火纯青,就中文来说,不仅仅是已经能够识别出普通话,还能识别出粤语。科大讯飞在国内应该是语音识别技术做的最好的了,在几年前就已经实现了离线语音识别的功能。
Speech 当然也不甘落后,也提供了离线的语音识别,速度和精准度也不必多说。
苹果一直都是呈现出来最简单最易用的API 给开发者, 所以通过Speech 实现一个语音识别功能就是分分钟搞定。
主要类有:
- SFSpeechRecognizer
-
SFSpeechRecognitionRequest
1). SFSpeechURLRecognitionRequest
2). SFSpeechAudioBufferRecognitionRequest - SFSpeechRecognitionTask
- SFSpeechRecognitionResult
简单四步实现语音识别
// 请求获取语音识别权限
SFSpeechRecognizer.requestAuthorization { (status) in . . . }
// 初始化中文语音识别
let speechRecongnizer = SFSpeechRecognizer(locale: Locale(identifier: “zh_CN”))
// 初始化识别请求
let recognitionRequest = SFSpeechURLRecognitionRequest(url: NSURL(string: "...")!)
// 请求获取语音识别
let recognitionTask = speechRecongnizer?.recognitionTask(with: recognitionRequest, resultHandler:{ (result, error) in
if let result = result {
print(result.bestTranscription.formattedString)
let isFinal = result.isFinal
}
})
这里我们需要实现实时语音识别并转化有效信息,就需要使用SFSpeechAudioBufferRecognitionRequest
来通过缓冲流实时将语音转化为有效文字信息。
let audioEngine = AVAudioEngine()
let recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
guard let inputNode = audioEngine.inputNode else {
fatalError("audioEngine error")
}
let recordingFormat = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
recognitionRequest?.append(buffer)
}
let recognitionTask = speechRecongnizer?.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in
var isFinal = false
if let result = result {
print(result.bestTranscription.formattedString)
}
})
audioEngine.prepare()
do {
try audioEngine.start()
} catch {
print("couldn't start")
}
这样我们就可以实时监听语音输入流自动转化为文字了,下面我们需要对文字进行解析,然后将反馈信息读出来。
语音朗读
AVSpeechSynthesizer 是随着iOS 7.0 而推出的一个文字转语音的特性,几行代码就能实现文字转成语音播放出来,
- AVSpeechSynthesizer
- AVSpeechUtterance
- AVSpeechSynthesisVoice
// 通过文字初始化话语
let utterance = AVSpeechUtterance(string: "语音转文字")
// 设置语言
utterance.voice = AVSpeechSynthesisVoice(language: "zh-CN")
// 读出来
let synthesizer = AVSpeechSynthesizer()
synthesizer.speak(utterance)
通过分词解析并反馈
下面我们就可以解析出一些词汇或命令来做出相应的反馈。就比如
var string = ""
if action.contains("叫爸爸") || action.contains("喊爸爸") {
string = "爸爸"
} else if action.contains("笑话") {
string = "我有个直觉,圣诞节那天,可能会有个人捧着鲜花和礼物对我说, 让一让兄弟,挡路了。"
} else if action.contains("绕口令") {
string = "黑化黑灰化肥灰会挥发发灰黑讳为黑灰花会回飞;灰化灰黑化肥会会挥发发黑灰为讳飞花回化为灰"
}
当然,这只是一些很简单的语音命令,如果要更精确的语音识别,肯定需要非常精准的分词算法来支持。
那么这样一个山寨的应用内Siri 就算完成了。