首页 | 本学科首页   官方微博 | 高级检索  
     

基于多流动态贝叶斯网络的音视频连续语音识别
引用本文:吕国云,蒋冬梅,赵荣椿,张艳宁,H Sahli,蒋晓悦.基于多流动态贝叶斯网络的音视频连续语音识别[J].西北工业大学学报,2008,26(4).
作者姓名:吕国云  蒋冬梅  赵荣椿  张艳宁  H Sahli  蒋晓悦
作者单位:1. 西北工业大学,陕西,西安,710072
2. 布鲁塞尔自由大学,电子与信息处理系,比利时,布鲁塞尔,B-1050
基金项目:中国科技部和比利时国际合作项目
摘    要:针对说话时发音和口形的异步问题,提出了一个多流异步动态贝叶斯网络(DynamicBayesian Network,DBN)模型,以实现基于音视频特征的连续语音识别,在这个模型中,音频流和视频流在词节点同步,而在词节点之间,音视频流有各自独立的拓扑结构以及节点变量之间的条件依赖关系,同时词转移节点变量由音视频流共同确定,模型在词级别上体现了音视频流的异步性.采用连续数字音视频数据库的实验结果表明,在信噪比为O~30 dB的测试环境下,比较单流DBN模型和多流隐马尔可夫模型,平均识别率分别提高了8.68%和10.07%.

关 键 词:多流异步  动态贝叶斯网络  音视频  语音识别

A Multi-Stream Asynchrony Model Based on Dynamic Bayesian Network for Audio-Visual Continuous Speech Recognition
Lü Guoyun,Jiang Dongmei,Zhao Rongchun,Zhang Yanning,H Sahli,Jiang Xiaoyue.A Multi-Stream Asynchrony Model Based on Dynamic Bayesian Network for Audio-Visual Continuous Speech Recognition[J].Journal of Northwestern Polytechnical University,2008,26(4).
Authors:Lü Guoyun  Jiang Dongmei  Zhao Rongchun  Zhang Yanning  H Sahli  Jiang Xiaoyue
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号