speech recognition
声音信号是一串向量,文本是一串token
声音到文字
可能输出的token
-
phoneme:发音的基本单位
lexicon记录了文字到发音的关联
发音到单词
坏处:需要lexicon,发音和lexicon都需要语音专家才能确定。
-
grapheme:书写的基本单位
image.png
好处:不需要lexicon;训练集中没出现过的不影响测试集。
挑战:对应关系比较复杂;需要自己学习出grapheme。 -
word
image.png
有的语音词太多 -
morpheme:能够表达意思的最小结构
morpheme作为输出的token -
bytes
image.png -
其他想法
image.png
可能的输入
image.png
image.png
image.png
image.png
image.png
image.png
2019年最常用的model
李宏毅DLHLP2020-overview1