首页 | 本学科首页   官方微博 | 高级检索  
     

混响环境中的视-听语音识别
引用本文:万书婷,曾向阳,王强.混响环境中的视-听语音识别[J].电声技术,2012,36(12).
作者姓名:万书婷  曾向阳  王强
作者单位:西北工业大学,陕西 西安,710072
基金项目:陕西省自然科学基金,西北工业大学研究生创业种子基金
摘    要:针对混响环境中语音识别率相对安静环境下急剧下降的问题,提出了一种将语音视觉信息与音频特征相结合的方法.通过快速检测和定位包含说话人唇部的感兴趣区域(ROI),获得ROI图像序列.首先对ROI图像进行离散余弦变换,提取反映说话人唇动的视觉特征.音频特征的提取,则采用较为成熟的Mel频率倒谱系数(MF-CC)方法.对所获取的视、音特征采用隐马尔可夫模型作为训练识别算法.测试实验结果证明,采用视、听特征相结合的方法,有效地提高了混响环境中的语音识别率.

关 键 词:语音识别  混响  视-听特征融合  隐马尔可夫模型

Audio-Visual Speech Recognition in Reverberant Environments
WAN Shuting , ZENG Xiangyang , WANG Qiang.Audio-Visual Speech Recognition in Reverberant Environments[J].Audio Engineering,2012,36(12).
Authors:WAN Shuting  ZENG Xiangyang  WANG Qiang
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号