让机器说话更自然 语音合成还能干什么?
来源: 网易智能

语音合成又称文语转换(Text-To-Speech),简称TTS,指通过机械的、电子的方法生成语音的技术。

随着科技的发展,合成语音的自然度和音质均得到了明显的改善。目前,语音合成技术在我们生活中具有广泛的应用,如电子阅读、
车载语音导航、银行医院排号系统、交通播报等等,这些应用场景都离不开语音合成。

简单来说语音合成分为文本分析、韵律分析和声学分析三个部分。通过文本分析提取出文本特征,在此基础上预测基频、时长、节奏等多种韵律特征,然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。整个过程类似于“编码、信息匹配,解码的过程”。

语音合成常用的两种方法:
一种是参数语音合成,另一种则是拼接合成。波形拼接语音合成的过程更容易理解,即在语料库中抽取合适的拼接单元,拼接成为句子。参数语音合成则需要对音库进行参数化建模,根据训练得到的模型预测出韵律参数和声学参数。
波形拼接语音合成需要对录音人进行长达几十个小时以上的录音采集,而参数语音合成则只需要十个小时的录音采集,即可完成一套定制化语音包的制作 。在体验效果上,拼接拼接合成的语音更加贴近真实发音,但是通过参数合成的语音更稳定。


下图为基于波形拼接:

下图为基于统计参数:

如何让机器说话更自然,有情感
从合成的发展历史来看,表现力、音质、复杂度和自然度一直是合成技术所追求的四点。但是目前水平下的合成语音很难体现出情感特征,例如在韵律表现上不够灵活,声调变化上相对死板。
