基于多流多状态动态贝叶斯网络的音视频连续语音识别 |
| |
作者姓名: | 吕国云 蒋冬梅 张艳宁 赵荣椿 H Sahli Ilse Ravyse W Verhelst |
| |
作者单位: | 西北工业大学计算机学院,西安,710072;布鲁塞尔自由大学电子与信息处理系,布鲁塞尔,B-1050,比利时 |
| |
基金项目: | 中国科技部与比利时弗拉芒大区科技合作项目
,
西北工业大学英才培养计划项目(04XD0102)资助课题
|
| |
摘 要: | 语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构.而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构.本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别.实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%.
|
关 键 词: | 语音识别 动态贝叶斯网络 音视频 多流异步 |
收稿时间: | 2007-06-11 |
修稿时间: | 2007-11-27 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《电子与信息学报》浏览原始摘要信息 |
|
点击此处可从《电子与信息学报》下载免费的PDF全文 |
|