2020-04-02李宏毅深度学习与人类语言处理笔记2(DLHLP2020-note2)-

speech recognition

声音信号是一串向量,文本是一串token


声音到文字

可能输出的token

  • phoneme:发音的基本单位
    lexicon记录了文字到发音的关联


    发音到单词

    坏处:需要lexicon,发音和lexicon都需要语音专家才能确定。

  • grapheme:书写的基本单位


    image.png

    好处:不需要lexicon;训练集中没出现过的不影响测试集。
    挑战:对应关系比较复杂;需要自己学习出grapheme。

  • word


    image.png

    有的语音词太多
  • morpheme:能够表达意思的最小结构


    morpheme作为输出的token
  • bytes


    image.png
  • 其他想法


    image.png

可能的输入

image.png

image.png
image.png

image.png

image.png

image.png

2019年最常用的model

李宏毅DLHLP2020-overview1

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容