首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 110 毫秒
1.
该文提出了基于支撑向量机SVM(SupportVectorMachine)结合由主元分析PCA(PrincipleComponentAnaly-sis)导出的DFFS(DistanceFromFaceSpace)判据进行人脸视觉语音特征区域定位的方法。并与基于传统Fisher准则的线性判别方法FDA(FisherDiscriminationAnalysis)结合DFFS判据的定位结果进行了比较分析。在有限样本的情况下,基于SVM-DFFS的方法与传统的线性FDA-DFFS方法相比具有一定的优势。该文实验中所使用的样本数据来自中国科学院声学所汉语听觉、视觉双模态数据库(CAVSRv1.0)。  相似文献   

2.
基于乘积HMM的双模态语音识别方法   总被引:3,自引:2,他引:1       下载免费PDF全文
针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频流的权重。实验结果证明,与其他双模态语音识别方法相比,该方法的识别性能更高。  相似文献   

3.
论文讨论了在开发人机交互系统过程中,实现人脸检测及其特征区域的定位方法。对输入图像,采用了简化的人脸肤色模型进行分割处理。对于由此得到的候选区域,使用基于Fisher准则的线性判别分析(FisherDiscriminationAnalysis)从中筛选出人脸所在的区域。在该区域内,使用由主元分析(PrincipleComponentAnalysis)导出的重构误差ε,又称DFFS(DistanceFromFaceSpace),结合使用FDA定位携带主要语音视觉特征的嘴部区域。实验中所使用的样本数据来自中国科学院声学所汉语听觉、视觉双模态数据库(CAVSRV1.0)。  相似文献   

4.
针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程采用语音作为人机交互手段,并具备用户自适应的功能。离线识别部分将系统产生的数据分层次进行统计,非常适合进行双模态语音识别算法研究。  相似文献   

5.
基于视频三音子的汉语双模态语料库的建立   总被引:2,自引:0,他引:2  
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。  相似文献   

6.
汉语语音视觉合成研究数据库CVSS1.0   总被引:1,自引:0,他引:1  
目前现有的双模态语音数据库多为外文,且绝大部分都是为语音识别或身份认证服务的。鉴于此,我们根据汉语语音的特点,建立了国内第一个较为完备的汉语语音视觉合成数据库CVSS1.0。它具有如下特点:包含136个单音节和265个连续发音语句的视频和音频数据,其语料规模超出目前同类数据库;语料是在汉语发音方式归类的基础上,依据汉字出现频度的高低选取,其中的独白语句涵盖了大部分的韵律结构,因此其反映的规律具有代表性;记录了脸部发音动作的三维运动信息;用绿点标出了部分MPEG4定义的脸部特征点,方便跟踪;可服务于多种视觉语音合成研究,有很高的通用性。  相似文献   

7.
针对双模态情感识别框架识别率低、可靠性差的问题,对情感识别最重要的两个模态语音和面部表情进行了双模态情感识别特征层融合的研究。采用基于先验知识的特征提取方法和VGGNet-19网络分别对预处理后的音视频信号进行特征提取,以直接级联的方式并通过PCA进行降维来达到特征融合的目的,使用BLSTM网络进行模型构建以完成情感识别。将该框架应用到AViD-Corpus和SEMAINE数据库上进行测试,并和传统情感识别特征层融合框架以及基于VGGNet-19或BLSTM的框架进行了对比。实验结果表明,情感识别的均方根误差(RMSE)得到降低,皮尔逊相关系数(PCC)得到提高,验证了文中提出方法的有效性。  相似文献   

8.
为充分提取文本和语音双模态深层情感特征,解决模态间有效交互融合的问题,提高情感识别准确率,提出了基于级联双通道分阶段融合(cascade two channel and phased fusion,CTC-PF)的双模态情感识别模型。设计级联顺序注意力编码器(cascaded sequential attention-Encoder,CSA-Encoder)对长距离语音情感序列信息进行并行化计算,提取深层语音情感特征;提出情感领域级联编码器(affective field cascade-Encoder,AFC-Encoder),提高模型的全局和局部文本理解能力,解决文本关键情感特征稀疏的问题。两个级联通道完成语音和文本信息的特征提取之后,利用协同注意力机制对两者的重要情感特征进行交互融合,降低对齐操作成本,然后采用哈达玛点积对其进行二次融合,捕获差异性特征,分阶段融合实现不同时间步长模态序列间的信息交互,解决双模态情感信息交互不足的问题。模型在IEMOCAP数据集上进行分类实验,结果表明,情感识别准确率可达79.4%,F1值可达79.0%,相比现有主流方法有明显提升,证明了该模型在语...  相似文献   

9.
基于数据库查询的自然语言接口研究   总被引:2,自引:0,他引:2  
语音识别技术是近年来信息领域重要的科技发展技术之一.作为一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术.探讨了为数据库查询提供自然语言接口的可能性,介绍了图书资料查询系统中语音识别的基本框架,并详细描述了采用微软Speech SDK技术实现图书资料查询的详细过程.给出了查询流程,基于状态转换图的词法分析和语法分析方法,将疑问句转换成SQL查询语句的方法,以及由查询结果生成答句的方法.  相似文献   

10.
提出了一个改进的三特征流听视觉融合异步动态贝叶斯网络情感模型(VVA_AsyDBN),采用面部几何特征(GF)和面部主动外观模型特征(AAM)作为两个视觉输入流,语音Mel倒谱特征(MFCC)作为听觉输入流,且视觉流的状态和听觉流的状态可以存在有约束的异步。在eNTERFACE’05听视觉情感数据库上进行了情感识别实验,并与传统的多流同步隐马尔可夫模型(MSHMM),以及具有两个听觉特征流(语音MFCC和局域韵律特征LP)和一个视觉特征流的听视觉异步DBN模型(T_AsyDBN)进行了比较。实验结果表明,VVA_AsyDBN获得了最高识别率75.61%,比视觉单流HMM提高了12.50%,比采用AAM、GF和MFCC特征的MSHMM提高了2.32%,比T_AsyDBN的最高识别率也提高了1.65%。  相似文献   

11.
唇读中序列口型的分类   总被引:3,自引:0,他引:3  
本文针对汉语中所有声韵母发音序列中的连续口型提出了一种口型分类的思路。在建立了覆盖所有声韵母的汉语双模态语料库的基础之上,本文提出了一种两次分类的方法,对语料库中的图像进行唇的分割、定位及特征提取,并依靠选择的特征,将声韵母的发音序列中的口型聚为15类。本文的目的是在此分类的基础上,明确唇读识别阶段的状态数,减小搜索的空间,提高收敛速度。  相似文献   

12.
基于区域直方图的图象数据库检索   总被引:1,自引:0,他引:1  
文章提出了图象区域分割新方法,将图象空间信息与颜色信息有机结合。该方法可以以较少的数据描述一幅图象,有利于图象数据库的管理与检索;解决了尺度变化、旋转和平移不变性问题。  相似文献   

13.
提出一种噪声下的多数据流子带语音识别方法。传统的子带特征方法虽然能提高噪声下的语音识别性能,但通常会使无噪声情况下的识别性能下降。新方法提取感知线性预测(PLP)特征和子带特征,分别进行识别,然后在识别概率层将两者相结合。通过E-Set在NoiseX92下的白噪声的识别实验表明,新方法不仅具有更好的抗噪性能,而且同时能提高无噪声情况下的识别性能。  相似文献   

14.
We describe the design of a multimedia database management system for a distributed news-on-demand multimedia information system. News-on-demand is an application that uses broadband network services to deliver news articles to subscribers in the form of multimedia documents. Different news providers insert articles into the database, which are then accessed by users remotely, over a broadband, asynchronous transfer-mode (ATM) network. The particulars of our design are an object-oriented approach and strict adherence to international standards, in particular the Standard Generalized Mark-up Language (SGML) and Hy-Time. The multimedia database system has a visual query facility, which is also described in this paper. The visual query interface provides three major facilities for end users: presentation, navigation, and querying of multimedia news documents. The main focus, however, is the querying of multimedia objects stored in the database.  相似文献   

15.
在语音与唇读识别应用中,传统的LDA(linear discriminant analysis)算法一般以音节、半音节、HMM状态等基元为类别进行数据分段,经线性判别分析后获得的特征投影方向与识别率不直接相关,影响了识别率。提出了一种新的基于LDAO(linear discriminant analysis based on object)的唇读特征提取算法,该算法以待识别对象为类别进行线性判别分析,在理论上保证了唇读特征矢量向最具判别能力的方向投影。基于唇读数据库的实验证明,该算法明显优于现有各种唇读特征提取算法,比DCT+LDA算法识别率提高了3%。  相似文献   

16.
基于中文文本分类的分词方法研究   总被引:13,自引:1,他引:13  
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号