结合几篇文章,以小鹏汽车为例,记录一下对于车载语音的初步理解。
首先以思必驰的这张图作为开端:
现在是这么个理解:
- 首先是音频采集,这个实际上是个工程物理问题,模拟数字转化,麦克风阵列的布置等会有影响
- 信号处理,就需要考虑到如何降噪,语音的数字信号进一步清晰 —— Cerence提供了SSE技术等
- 语音识别,是将语音的数字信号识别为文本,英文称之为 speech-to-text (STT),等同于ASR(automatic speech recognition) —— 根据新闻稿,是Cerence提供的
- 然后就是语义理解了,这里应该指向的是Natural Language Understanding (NLU) —— 提供方同上
- 但是这并不是语音AI核心的全部,因为你要进行对话管理了,就是如何对话才能像人,这背后需要对于场景的理解,估计是要结合知识图谱、以及和行业方的合作(效果如何需要进一步识别)等,对应的技术是Natural Language Generation(NLG) —— 这里应该是思必驰的核心输出,包括全双工交互、多轮对话等,当然也要基于声纹识别,对于不同的用户进行个性化推荐,想必其中是小鹏自己还要进行深度定制
- 日常通常说的自然语言处理Natural Language Processing (NLP) = NLU + NLG,要注意的是,NLP只处理文本,所以其前面有STT
- 而随后,就需要将其转化为声音,text-to-speech(TTS),语音合成 —— Cerence提供,但是近期应该替换为了结合微软云的方案,以提升效果
- 那么,外圈的内容服务是什么呢?是导入中国强大的各路CP/SP吧,但是这里谁来导入并没有本质差别,估计在P7的交互体验中,为了深度定制化,应该是小鹏自己做的
那么,还有什么点有遗漏的吗?
用户运营中的隐私与安全 —— 据说是思必驰进行脱敏,小鹏自身负责用户运营。
这样来看的话:
- 最核心应该在于NLG的那一部分,可能算是语音AI中的推荐引擎部分了吧?
- 如果加上基于图像识别的表情、视线、手势、心跳、温度等,那确实存在HMI引擎?
- 那么,基于各路传感器作为信息输入,只做引擎,真的可能么?尤其是在智能汽车,这个大的产品,其发展路线并不十分明确的情况下?
- 类比于,如果做自动驾驶,只做算法(或者软硬结合成为tier 1),不做传感器、不做芯片,真的有出路么?