短语音及易混淆语种识别改进系统 |
| |
作者姓名: | 李卓茜 高镇 王化 刘俊南 朱光旭 |
| |
作者单位: | 1.天津大学 电气自动化与信息工程学院,天津 300072; 2.因诺微科技(天津)有限公司,天津 300392 |
| |
基金项目: | 天津市科委“面向多语种的智能信息系统研究”(17ZXRGGX00160) |
| |
摘 要: | 该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。
|
关 键 词: | 短语音 易混淆语种 语种识别 语音特征 |
|
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|