基于BTSM—LDA的口形动态特征及多流异步音视频语音识别 Visual Feature Based on BTSM-LDA and Multi-Stream Asynchrony Model for Audio-Visual Speech Recognition期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于BTSM—LDA的口形动态特征及多流异步音视频语音识别

引用本文：	吕国云,赵荣椿,蒋冬梅,H.Sahli,樊养余,W.Verhelst.基于BTSM—LDA的口形动态特征及多流异步音视频语音识别[J].数据采集与处理,2008,23(4).

作者姓名：	吕国云赵荣椿蒋冬梅 H.Sahli 樊养余 W.Verhelst

作者单位：	1. 西北工业大学计算机学院,西安,710072 2. 布鲁塞尔自由大学电子与信息处理系,布鲁塞尔,B-1050,比利时

基金项目：	中国科技部和比利时国际合作项目，国家高技术研究发展计划(863计划)

摘要：	引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余.同时采用一种新颖的多流异步动态贝叶斯网络(MS-ADBN)模型来实现音视频的连续语音识别,该模型在词节点级别体现了音视频流的同步异步性.识别实验结果表明:采用LDA视觉语音动态特征的系统性能明显优于静态的口形轮廓几何特征,在语音信噪比为0～30 dB的测试环境下,融合LDA视觉特征的MS-ADBN模型比多流异步HMM的平均识别率提高4.92%,说明MS-ADBN模型更好地表达了音视频流之间的异步关系.
关键词：	动态贝叶斯网络语音识别贝叶斯切线形状模型多流异步线性判别分析
Visual Feature Based on BTSM-LDA and Multi-Stream Asynchrony Model for Audio-Visual Speech Recognition

Lü Guo-yun,Zhao Rong-chun,Jiang Dong-mei,H.Sahli,Fan Yang-yu,W.Verhelst.Visual Feature Based on BTSM-LDA and Multi-Stream Asynchrony Model for Audio-Visual Speech Recognition[J].Journal of Data Acquisition & Processing,2008,23(4).

Authors:	Lü Guo-yun Zhao Rong-chun Jiang Dong-mei HSahli Fan Yang-yu WVerhelst

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏