登录注册写文章

2020-04-02李宏毅深度学习与人类语言处理笔记2（DLHLP2020-note2）-

2020-04-02李宏毅深度学习与人类语言处理笔记2（DLHLP2020-note2）-

speech recognition

声音信号是一串向量，文本是一串token

声音到文字

可能输出的token

phoneme：发音的基本单位
lexicon记录了文字到发音的关联

发音到单词

坏处：需要lexicon，发音和lexicon都需要语音专家才能确定。
grapheme：书写的基本单位

image.png

好处：不需要lexicon；训练集中没出现过的不影响测试集。
挑战：对应关系比较复杂；需要自己学习出grapheme。
word

image.png

有的语音词太多
morpheme：能够表达意思的最小结构

morpheme作为输出的token
bytes

image.png
其他想法

image.png

可能的输入

image.png

image.png

image.png

image.png

image.png

image.png

2019年最常用的model

李宏毅DLHLP2020-overview1

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

2020-04-01李宏毅深度学习与人类语言处理笔记1（DLHLP2020-note1）-ov...
人类语言处理人类语言很复杂包括文字和语音 56%的语言没有文字 1s就有16k个样本点，每个点有256个可能的...
白骨鱼石阅读 634评论 0赞 0
李宏毅机器学习（十六）Why Deep
为什么Deeper更好，我们神经网络层数多，因为参数多，当然也表现得更好我们比较胖短型和深瘦型，哪个有优势呢，我...
ca8519be679b阅读 944评论 0赞 51
Detecting Text in Natural Image with Connection...
文章作者：Tyan博客：noahsnail.com | CSDN | 简书声明：作者翻译论文仅为学习，如有侵权请...
SnailTyan阅读 1,996评论 0赞 2
一个人的中餐
文/明日之月今天一个人在家，早上起床吃过早饭去了一趟物美超市，超市里购物的人很多，好像恢复了往日的热闹，口罩大家...
明日之月阅读 765评论 1赞 15
???
麻哈批老子100多字牢骚一下子就没了要命呵去你丫的这2019年真是灾难我没有收获除了追星去了两次演唱会一...
清醒不了的人阅读 100评论 0赞 0

赞1赞

赞赏

手机看全文