基于神经网络的视觉语音识别系统期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于神经网络的视觉语音识别系统

作者姓名：	张晋宁

作者单位：	山西机电职业技术学院

摘要：	视觉语音识别（Audio-Visual Speech Recognition,AVSR）系统结合音频和视觉信息，提供可靠的语音识别功能。为了提高AVSR系统在低信噪比（Signal-to-Noise Ratio,SNR）环境下的识别准确率，提出一种基于循环神经网络（Recurrent Neural Network,RNN）的AVSR系统。该系统由音频特征提取模块、视觉特征提取模块以及音频和视觉特征联合模块3部分组成。特征联合模块利用RNN将基于梅尔频率倒谱系数的音频特征与OpenCV库中的Haar级联检测提取的视觉信息相结合，以提高系统识别率。实验结果表明，在低信噪比条件下，所提系统的正确识别率保持在89%左右。
关键词：	视觉语音识别循环神经网络(RNN) 梅尔频率倒谱系数(MFCC) 信噪比(SNR)