首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
为进一步提高学前教育对话机器人交互过程的准确性,结合多模态融合思想,提出一种基于面部表情情感和语音情感融合的识别技术。其中,为解决面部表情异常视频帧的问题,采用卷积神经网络对人脸进行检测,然后基于Gabor小波变换对人脸表情进行特征提取,最后通过残差网络对面部表情情感进行识别;为提高情感识别的准确性,协助学前教育机器人更好地理解儿童情感,在采用MFCC对连续语音特征进行提取后,通过残差网络对连续语音情感进行识别;利用多元线性回归算法对面部和语音情感识别结果进行融合。在AVEC2019数据集上的验证结果表明,表情情感识别和连续语音情感识别均具有较高识别精度;与传统的单一情感识别相比,多模态融合识别的一致性相关系数最高,达0.77。由此得出,将多模态情感识别的方法将有助于提高学前教育对话机器人交互过程中的情感识别水平,提高对话机器人的智能化。  相似文献   

2.
情感分析是指利用计算机自动分析确定人们所要表达的情感,其在人机交互和刑侦破案等领域都能发挥重大作用.深度学习和传统特征提取算法的进步为利用多种模态进行情感分析提供了条件.结合多种模态进行情感分析可以弥补单模态情感分析的不稳定性以及局限性等缺点,能够有效提高准确度.近年来,研究者多用面部表情信息、文本信息以及语音信息三种模态进行情感分析.主要从这三种模态对多模态情感分析技术进行综述:首先对多模态情感分析的基本概念以及研究现状进行简要介绍;其次总结了常用的多模态情感分析数据集;然后分别对现有的基于面部表情信息、文本信息和语音信息的单模态情感分析技术进行简要叙述;接下来详细介绍了模态融合技术,并依据不同的模态融合方式对多模态情感分析技术的现有成果进行重点描述;最后讨论了多模态情感分析存在的问题以及未来的发展方向.  相似文献   

3.
生物特征识别是身份认证的重要手段,特征提取技术在其中扮演了关键角色,直接影响识别的结果。随着特征提取技术日趋成熟,学者们逐渐将目光投向了生物特征间的相关性问题。本文以单模态和多模态生物识别中的特征提取方法为研究对象,回顾了人脸与指纹的特征提取方法,分析了基于经验知识的特征分类提取方法以及基于深度学习的计算机逻辑采样提取方法,并从图像处理的角度对单模态与多模态方法进行对比。以当前多模态生物特征提取方法和DNA表达过程为引,提出了不同模态的生物特征之间存在相关性的猜想,以及对这一猜想进行建模的思路。在多模态生物特征提取的基础上,对今后可能有进展的各生物特征之间的相关性建模进行了展望。  相似文献   

4.
多模态维度情感预测综述   总被引:7,自引:3,他引:4  
李霞  卢官明  闫静杰  张正言 《自动化学报》2018,44(12):2142-2159
维度情感模型通过几个取值连续的维度(如唤醒维、效价维、支配维等)将情感刻画为一个多维信号.与传统的离散情感模型相比,具有表示情感的范围广、能描述情感的演变过程等优点,近年来受到越来越多情感识别研究者的关注.多模态维度情感预测是一项复杂的工程,预测性能受所使用的模态、每个模态的特征提取、信息融合技术、标注人员的标注误差等多方面影响.为了提高多模态维度情感预测的性能,研究者在各个方面都做出了不懈努力.本文综述了维度情感的概念、标注,维度情感预测的性能评价指标以及多模态维度情感预测的研究现状,对比和分析了各种因素对多模态维度情感预测性能的影响,并总结出多模态维度情感预测面临的挑战及发展趋势.  相似文献   

5.
抑郁症是一种精神疾病,严重时会导致自杀行为的发生。当前抑郁症患者人数正变得越来越多,越来越普遍化、年轻化。采用机器学习方法开展面向音频、视频等模态信息的多模态抑郁症识别研究已成为一个计算机科学、心理学、医学等多学科交叉的热点课题。近年来,新发展起来的深度学习技术也逐渐被应用于面向音频、视频等模态信息的多模态抑郁症识别中的深度特征提取任务。为了系统总结和归纳近年来深度学习技术在多模态抑郁症识别领域的研究进展,首先介绍了抑郁症的临床表现及心理学诊断方法,随后简要总结了现有的抑郁症数据集,并阐述了代表性深度学习技术的基本原理及进展情况;然后,系统分析和总结了面向音频、视频的多模态抑郁症识别涉及到的关键技术,包括手工特征提取和深度特征提取,以及多模态信息融合策略;最后,指出了该领域存在的机遇与挑战,并对下一步的研究方向进行了总结与展望。  相似文献   

6.
陈师哲  王帅  金琴 《软件学报》2018,29(4):1060-1070
自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了在多文化场景下的多模态情感识别问题.我们从语音声学和面部表情等模态分别提取了不同的情感特征,包括传统的手工定制特征和基于深度学习的特征,并通过多模态融合方法结合不同的模态,比较不同单模态特征和多模态特征融合的情感识别性能.我们在CHEAVD中文多模态情感数据集和AFEW英文多模态情感数据集进行实验,通过跨文化情感识别研究,我们验证了文化因素对于情感识别的重要影响,并提出3种训练策略提高在多文化场景下情感识别的性能,包括:分文化选择模型、多文化联合训练以及基于共同情感空间的多文化联合训练,其中基于共同情感空间的多文化联合训练通过将文化影响与情感特征分离,在语音和多模态情感识别中均取得最好的识别效果.  相似文献   

7.
情感分析是一项新兴技术,其旨在探索人们对实体的态度,可应用于各种领域和场景,例如产品评价分析、舆情分析、心理健康分析和风险评估。传统的情感分析模型主要关注文本内容,然而一些特殊的表达形式,如讽刺和夸张,则很难通过文本检测出来。随着技术的不断进步,人们现在可以通过音频、图像和视频等多种渠道来表达自己的观点和感受,因此情感分析正向多模态转变,这也为情感分析带来了新的机遇。多模态情感分析除了包含文本信息外,还包含丰富的视觉和听觉信息,利用融合分析可以更准确地推断隐含的情感极性(积极、中性、消极)。多模态情感分析面临的主要挑战是跨模态情感信息的整合,因此,重点介绍了不同融合方法的框架和特点,并对近几年流行的融合算法进行了阐述,同时对目前小样本场景下的多模态情感分析进行了讨论,此外,还介绍了多模态情感分析的发展现状、常用数据集、特征提取算法、应用领域和存在的挑战。期望此综述能够帮助研究人员了解多模态情感分析领域的研究现状,并从中得到启发,开发出更加有效的模型。  相似文献   

8.
多模态情感分析作为近年来的研究热点,比单模态情感分析具有更高的稳定性和准确率.介绍了多模态情感分析研究背景,分别对基于文本的、基于音频的和基于视频的单模态情感算法分析进行了阐述,又讲解了多模态的3种融合方法:特征级融合、决策级融合和混合融合以及相关算法,并分析了多模态情感分析存在的问题.  相似文献   

9.
情感计算是人工智能领域的一个重要分支,在交互、教育、安全和金融等众多领域应用广泛。单纯依靠语音、视频单一模态的情感识别并不符合人类对情感的感知模式,在受到干扰的情况下识别准确率会迅速下降。为了充分挖掘不同模态数据的互补性,多模态融合的情感识别研究正日益受到研究人员的广泛重视。本文分别从多模态情感识别概述、多模态情感识别与理解、抑郁症情感障碍检测及干预 3 个维度介绍多模态情感计算研究现状。本文认为具备可扩展性的情感特征设计、基于大模型迁移学习的识别方法将是未来的发展方向,并在解决抑郁、焦虑等情感障碍方面的作用日益凸显。  相似文献   

10.
目的 在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion, ZSAR-MF)框架。方法 本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network, CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果 本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4 %左右。结论 本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。  相似文献   

11.
多模态对话情绪识别是一项根据对话中话语的文本、语音、图像模态预测其情绪类别的任务。针对现有研究主要关注话语上下文的多模态特征提取和融合,而没有充分考虑每个说话人情绪特征利用的问题,提出一种基于一致性图卷积网络的多模态对话情绪识别模型。该模型首先构建了多模态特征学习和融合的图卷积网络,获得每条话语的上下文特征;在此基础上,以说话人在完整对话中的平均特征为一致性约束,使模型学习到更合理的话语特征,从而提高预测情绪类别的性能。在两个基准数据集IEMOCAP和MELD上与其他基线模型进行了比较,结果表明所提模型优于其他模型。此外,还通过消融实验验证了一致性约束和模型其他组成部分的有效性。  相似文献   

12.
人机对话中的情感识别对提升人机交互效率具有重要意义.当前,人机对话系统中的情感识别主要由特征提取和回归两步完成.但是,通常这两个步骤是相互独立的,目标并不一致,难以判断提取的特征是否为合适的情感特征.再者,在特征融合方面,传统方法仅将不同模态特征简单拼接,忽略了不同模态对分类结果影响的大小.针对以上问题,本文提出了一种端到端的对话情感识别模型E2E-CER,该模型将情感识别过程整合在一个统一的系统中.此外,还引入了基于注意力机制的多模态融合方法,提高了对上下文语境的学习能力,改善了动态特征融合效果.最后基于公共数据集IEMOCAP进行情了感分类识别实验,实验结果显示,同对话情感识别基线相比,所提模型表现明显高于平均水平,表明其在情感识别上的有效性.  相似文献   

13.
Learning modality-fused representations and processing unaligned multimodal sequences are meaningful and challenging in multimodal emotion recognition. Existing approaches use directional pairwise attention or a message hub to fuse language, visual, and audio modalities. However, these fusion methods are often quadratic in complexity with respect to the modal sequence length, bring redundant information and are not efficient. In this paper, we propose an efficient neural network to learn modality-fused representations with CB-Transformer (LMR-CBT) for multimodal emotion recognition from unaligned multi-modal sequences. Specifically, we first perform feature extraction for the three modalities respectively to obtain the local structure of the sequences. Then, we design an innovative asymmetric transformer with cross-modal blocks (CB-Transformer) that enables complementary learning of different modalities, mainly divided into local temporal learning, cross-modal feature fusion and global self-attention representations. In addition, we splice the fused features with the original features to classify the emotions of the sequences. Finally, we conduct word-aligned and unaligned experiments on three challenging datasets, IEMOCAP, CMU-MOSI, and CMU-MOSEI. The experimental results show the superiority and efficiency of our proposed method in both settings. Compared with the mainstream methods, our approach reaches the state-of-the-art with a minimum number of parameters.  相似文献   

14.
情感识别在人机交互中发挥着重要的作用,连续情感识别因其能检测到更广泛更细微的情感而备受关注。在多模态连续情感识别中,针对现有方法获取的时序信息包含较多冗余以及多模态交互信息捕捉不全面的问题,提出基于感知重采样和多模态融合的连续情感识别方法。首先感知重采样模块通过非对称交叉注意力机制去除模态冗余信息,将包含时序关系的关键特征压缩到隐藏向量中,降低后期融合的计算复杂度。其次多模态融合模块通过交叉注意力机制捕捉模态间的互补信息,并利用自注意力机制获取模态内的隐藏信息,使特征信息更丰富全面。在Ulm-TSST和Aff-Wild2数据集上唤醒度和愉悦度的CCC均值分别为63.62%和50.09%,证明了该模型的有效性。  相似文献   

15.
针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法.该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural networ...  相似文献   

16.
The availability of the humongous amount of multimodal content on the internet, the multimodal sentiment classification, and emotion detection has become the most researched topic. The feature selection, context extraction, and multi-modal fusion are the most important challenges in multimodal sentiment classification and affective computing. To address these challenges this paper presents multilevel feature optimization and multimodal contextual fusion technique. The evolutionary computing based feature selection models extract a subset of features from multiple modalities. The contextual information between the neighboring utterances is extracted using bidirectional long-short-term-memory at multiple levels. Initially, bimodal fusion is performed by fusing a combination of two unimodal modalities at a time and finally, trimodal fusion is performed by fusing all three modalities. The result of the proposed method is demonstrated using two publically available datasets such as CMU-MOSI for sentiment classification and IEMOCAP for affective computing. Incorporating a subset of features and contextual information, the proposed model obtains better classification accuracy than the two standard baselines by over 3% and 6% in sentiment and emotion classification, respectively.  相似文献   

17.
情绪识别作为人机交互的热门领域,其技术已经被应用于医学、教育、安全驾驶、电子商务等领域.情绪主要由面部表情、声音、话语等进行表达,不同情绪表达时的面部肌肉、语气、语调等特征也不相同,使用单一模态特征确定的情绪的不准确性偏高,考虑到情绪表达主要通过视觉和听觉进行感知,本文提出了一种基于视听觉感知系统的多模态表情识别算法,分别从语音和图像模态出发,提取两种模态的情感特征,并设计多个分类器为单特征进行情绪分类实验,得到多个基于单特征的表情识别模型.在语音和图像的多模态实验中,提出了晚期融合策略进行特征融合,考虑到不同模型间的弱依赖性,采用加权投票法进行模型融合,得到基于多个单特征模型的融合表情识别模型.本文使用AFEW数据集进行实验,通过对比融合表情识别模型与单特征的表情识别模型的识别结果,验证了基于视听觉感知系统的多模态情感识别效果要优于基于单模态的识别效果.  相似文献   

18.
Huan  Ruo-Hong  Shu  Jia  Bao  Sheng-Lin  Liang  Rong-Hua  Chen  Peng  Chi  Kai-Kai 《Multimedia Tools and Applications》2021,80(6):8213-8240

A video multimodal emotion recognition method based on Bi-GRU and attention fusion is proposed in this paper. Bidirectional gated recurrent unit (Bi-GRU) is applied to improve the accuracy of emotion recognition in time contexts. A new network initialization method is proposed and applied to the network model, which can further improve the video emotion recognition accuracy of the time-contextual learning. To overcome the weight consistency of each modality in multimodal fusion, a video multimodal emotion recognition method based on attention fusion network is proposed. The attention fusion network can calculate the attention distribution of each modality at each moment in real-time so that the network model can learn multimodal contextual information in real-time. The experimental results show that the proposed method can improve the accuracy of emotion recognition in three single modalities of textual, visual, and audio, meanwhile improve the accuracy of video multimodal emotion recognition. The proposed method outperforms the existing state-of-the-art methods for multimodal emotion recognition in sentiment classification and sentiment regression.

  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号