首页 | 本学科首页   官方微博 | 高级检索  
     

基于BTSM—LDA的口形动态特征及多流异步音视频语音识别
引用本文:吕国云,赵荣椿,蒋冬梅,H.Sahli,樊养余,W.Verhelst.基于BTSM—LDA的口形动态特征及多流异步音视频语音识别[J].数据采集与处理,2008,23(4).
作者姓名:吕国云  赵荣椿  蒋冬梅  H.Sahli  樊养余  W.Verhelst
作者单位:1. 西北工业大学计算机学院,西安,710072
2. 布鲁塞尔自由大学电子与信息处理系,布鲁塞尔,B-1050,比利时
基金项目:中国科技部和比利时国际合作项目,国家高技术研究发展计划(863计划)
摘    要:引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余.同时采用一种新颖的多流异步动态贝叶斯网络(MS-ADBN)模型来实现音视频的连续语音识别,该模型在词节点级别体现了音视频流的同步异步性.识别实验结果表明:采用LDA视觉语音动态特征的系统性能明显优于静态的口形轮廓几何特征,在语音信噪比为0~30 dB的测试环境下,融合LDA视觉特征的MS-ADBN模型比多流异步HMM的平均识别率提高4.92%,说明MS-ADBN模型更好地表达了音视频流之间的异步关系.

关 键 词:动态贝叶斯网络  语音识别  贝叶斯切线形状模型  多流异步  线性判别分析

Visual Feature Based on BTSM-LDA and Multi-Stream Asynchrony Model for Audio-Visual Speech Recognition
Lü Guo-yun,Zhao Rong-chun,Jiang Dong-mei,H.Sahli,Fan Yang-yu,W.Verhelst.Visual Feature Based on BTSM-LDA and Multi-Stream Asynchrony Model for Audio-Visual Speech Recognition[J].Journal of Data Acquisition & Processing,2008,23(4).
Authors:Lü Guo-yun  Zhao Rong-chun  Jiang Dong-mei  HSahli  Fan Yang-yu  WVerhelst
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号