语音合成简介文本到语音
这个博客的主要内容是介绍文字转语音的背景知识。希望读者能够轻松理解语音合成的工作原理,为理解最先进的文本转语音的算法打下基础。
这个介绍主要基于本文的附录“Wave Net:Raw Audio的生成模型”。论文的链接如下:blogs.com/BaroC/p/4283380.html.
对于神经网络的算法,一般是基于softmax分类器生成256个量化值,对应声音的256个量化值。WaveRNN和wavenet就是这样生成的。
以下是我学习语音合成的一些资料,其中强烈推荐斯坦福cs224s,但是这个讲义的逻辑不是很清楚,反复看了就明白了。
Ucsb数字语音处理教程,声音信号处理基础。建议看一下。链接如下。/view/68 fbf 1a4f 61fb 7360 b4c 658 b . html