MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型 MonTTS: A Real-time and High-fidelity Mongolian TTS Model with Pure Non-autoregressive Mechanism期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型

引用本文：	刘瑞,康世胤,高光来,李劲东,飞龙.MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型[J].中文信息学报,2022,36(7):86-97.

作者姓名：	刘瑞康世胤高光来李劲东飞龙

作者单位：	1.内蒙古大学计算机学院, 内蒙古呼和浩特 010021; 2.虎牙科技有限公司,广东广州 511400; 3.搜狗科技发展有限公司,北京 100084

基金项目：	内蒙古大学“骏马计划”高层次人才引进项目(100000-22311201/002);国家重点研发计划项目(2018YFE0122900);国家自然科学基金(61773224,62066033);内蒙古自然科学基金(2018MS06006);内蒙古自治区成果转化项目(CGZH2018125);内蒙古自治区应用技术研究与开发资金项目(2019GG372,2020GG0046)

摘要：	针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题: ①合成效率较低; ②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进: ①使用蒙古文音素序列来表征蒙古文发音信息; ②提出音素级的声学调节器以学习长时韵律变化; ③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库: MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^-3,满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。
关键词：	蒙古语语音合成非自回归声学建模非自回归神经声码器实时高保真
MonTTS: A Real-time and High-fidelity Mongolian TTS Model with Pure Non-autoregressive Mechanism

LIU Rui,KANG Shiyin,GAO Guanglai,LI Jingdong,BAO Feilong.MonTTS: A Real-time and High-fidelity Mongolian TTS Model with Pure Non-autoregressive Mechanism[J].Journal of Chinese Information Processing,2022,36(7):86-97.

Authors:	LIU Rui KANG Shiyin GAO Guanglai LI Jingdong BAO Feilong

Affiliation:	1.Department of Computer Science, Inner Mongolia University, Hohhot, Inner Mongolia 010021, China; 2.Huya Technology Co., Ltd, Guangzhou, Guangdong 511400, China; 3.Sogou Technology Development Co., Ltd, Beijing 100084, China

Abstract:	Aiming at real-time and high-fidelity Mongolian Text-to-Speech (TTS) generation, a FastSpeech2 based non-autoregressive Mongolian TTS system (short forMonTTS) is proposed. To improve the overall performance in terms of prosody naturalness and fidelity, MonTTS adopts three novel mechanisms: 1) Mongolian phoneme sequence is used to represent the Mongolian pronunciation; 2) phoneme-level variance adaptor is employed to learn the long-term prosody information; and 3) two duration aligners, i.e. Mongolian speech recognition and Mongolian autoregressive TTS based models, are used to provide the duration supervise signal. Besides, we build a large-scale Mongolian TTS corpus, named MonSpeech. The experimental results show that the MonTTS outperforms the state-of-the-art Tacotron-based Mongolian TTS and standard FastSpeech2 baseline systems significantly, with real-time rate (RTF) of 3.63× 10^-3 and Mean Opinion Score (MOS) of 4.53(see https: //github.com/ttslr/MonTTS).

Keywords:	Mongolian text-to-speech (TTS) non-autoregressive acoustic model non-autoregressive neural vocoder real-time high-fidelity

	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏