混响环境中的视-听语音识别 Audio-Visual Speech Recognition in Reverberant Environments期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

混响环境中的视-听语音识别

引用本文：	万书婷,曾向阳,王强.混响环境中的视-听语音识别[J].电声技术,2012,36(12).

作者姓名：	万书婷曾向阳王强

作者单位：	西北工业大学,陕西西安,710072

基金项目：	陕西省自然科学基金，西北工业大学研究生创业种子基金

摘要：	针对混响环境中语音识别率相对安静环境下急剧下降的问题,提出了一种将语音视觉信息与音频特征相结合的方法.通过快速检测和定位包含说话人唇部的感兴趣区域(ROI),获得ROI图像序列.首先对ROI图像进行离散余弦变换,提取反映说话人唇动的视觉特征.音频特征的提取,则采用较为成熟的Mel频率倒谱系数(MF-CC)方法.对所获取的视、音特征采用隐马尔可夫模型作为训练识别算法.测试实验结果证明,采用视、听特征相结合的方法,有效地提高了混响环境中的语音识别率.
关键词：	语音识别混响视-听特征融合隐马尔可夫模型
Audio-Visual Speech Recognition in Reverberant Environments

WAN Shuting , ZENG Xiangyang , WANG Qiang.Audio-Visual Speech Recognition in Reverberant Environments[J].Audio Engineering,2012,36(12).

Authors:	WAN Shuting ZENG Xiangyang WANG Qiang

Abstract:

Keywords:
本文献已被万方数据等数据库收录！