首页 | 本学科首页   官方微博 | 高级检索  
     

基于多流多状态动态贝叶斯网络的音视频连续语音识别
引用本文:吕国云,蒋冬梅,张艳宁,赵荣椿,H Sahli,Ilse Ravyse,W Verhelst. 基于多流多状态动态贝叶斯网络的音视频连续语音识别[J]. 电子与信息学报, 2008, 30(12): 2906-2911. DOI: 10.3724/SP.J.1146.2007.00915
作者姓名:吕国云  蒋冬梅  张艳宁  赵荣椿  H Sahli  Ilse Ravyse  W Verhelst
作者单位:西北工业大学计算机学院,西安,710072;布鲁塞尔自由大学电子与信息处理系,布鲁塞尔,B-1050,比利时
基金项目:中国科技部与比利时弗拉芒大区科技合作项目 , 西北工业大学英才培养计划项目(04XD0102)资助课题  
摘    要:语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构.而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构.本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别.实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%.

关 键 词:语音识别  动态贝叶斯网络  音视频  多流异步
收稿时间:2007-06-11
修稿时间:2007-11-27

DBN Based Multi-stream Multi-states Model for Continue Audio-Visual Speech Recognition
Lü Guo-yun,Jiang Dong-mei,Zhang Yan-ning,Zhao Rong-chun,H Sahli,Ilse Ravyse,W Verhelst. DBN Based Multi-stream Multi-states Model for Continue Audio-Visual Speech Recognition[J]. Journal of Electronics & Information Technology, 2008, 30(12): 2906-2911. DOI: 10.3724/SP.J.1146.2007.00915
Authors:Lü Guo-yun  Jiang Dong-mei  Zhang Yan-ning  Zhao Rong-chun  H Sahli  Ilse Ravyse  W Verhelst
Affiliation:(Northwestern Polytechnical University, School of Computer Science, Xi’an 710072, China)  (Vrije Universiteit Brussel, Department ETRO, Brussel B-1050, Belgium)
Abstract:
Keywords:Speech recognition  Dynamic Bayesian Network (DBN)  Audio-visual  Multi-stream asynchrony
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《电子与信息学报》浏览原始摘要信息
点击此处可从《电子与信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号