摘 要: | 为提高普米语语音识别系统的性能,引入深度学习模型进行普米语语音识别,该模型是一个高容量复杂的网络模型。以Kaldi语音识别工具包为实验平台,分别训练5种不同的声学模型,且这5种模型中包含一个有4隐层的深度神经网络模型。比较不同声学模型得到的语音识别率发现,G-DNN模型比Monophone模型的语音识别率平均提升49.8%。实验结果表明,当增加训练集的普米语语音语料量时,基于深度学习的普米语语音识别率会提升,而基于深度学习的普米语语音识别系统的鲁棒性比其余4个声学模型的普米语语音识别系统的鲁棒性更强。
|