基于TensorFlow的俄语词汇标音系统 |
| |
引用本文: | 冯伟,易绵竹,马延周.基于TensorFlow的俄语词汇标音系统[J].计算机应用,2018,38(4):971-977. |
| |
作者姓名: | 冯伟 易绵竹 马延周 |
| |
作者单位: | 战略支援部队 信息工程大学(洛阳), 河南 洛阳 471003 |
| |
基金项目: | 洛阳市社会科学规划项目(2016B285)。 |
| |
摘 要: | 针对俄语语音合成和语音识别系统中发音词典规模有限的问题,提出一种基于长短时记忆(LSTM)序列到序列模型的俄语词汇标音算法,同时设计实现了标音原型系统。首先,对基于SAMPA的俄语音素集进行了改进设计,使标音结果能够反映俄语单词的重音位置及元音弱化现象,并依据改进的新音素集构建了包含20 000词的俄语发音词典;然后利用TensorFlow框架实现了这一算法,该算法通过编码LSTM将俄语单词转换为固定维数的向量,再通过解码LSTM将向量转换为目标发音序列;最后,设计实现了具有交互式单词标音等功能的俄语词汇标音系统。实验结果表明,该算法在集外词测试集上的词形正确率达到了74.8%,音素正确率达到了94.5%,均高于Phonetisaurus方法。该系统能够有效为俄语发音词典的构建提供支持。
|
关 键 词: | 俄语 词汇标音 长短时记忆网络 序列到序列 TensorFlow |
收稿时间: | 2017-09-04 |
修稿时间: | 2017-11-18 |
|
| 点击此处可从《计算机应用》浏览原始摘要信息 |
|
点击此处可从《计算机应用》下载全文 |
|