首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
刘琴  谢珺  胡勇  郝戍峰  郝雅卉 《控制与决策》2024,39(6):2031-2040
多模态对话情绪识别旨在根据多模态对话语境判别出目标话语所表达的情绪类别,是构建共情对话系统的基础任务.现有工作中大多数方法仅考虑多模态对话本身信息,忽略了对话中与倾听者和说话者相关的知识信息,从而限制了目标话语情绪特征的捕捉.为解决该问题,提出一种基于听说知识融合网络的多模态对话情绪识别模型(LSKFN),引入与倾听者和说话者相关的外部常识知识,实现多模态上下文信息和知识信息的有机融合.LSKFN包含多模态上下文感知、听说知识融合、情绪信息汇总和情绪决策4个阶段,分别用于提取多模态上下文特征、融入听说知识特征、消除冗余特征和预测情绪分布.在两个公开数据集上的实验结果表明,与其他基准模型相比,LSKFN能够为目标话语提取到更加丰富的情绪特征,并且获得较好的对话情绪识别效果.  相似文献   

2.
随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求,如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构,总结了三个常见的融合模型,简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面,对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题,并提出未来的研究方向。  相似文献   

3.
采用EEG/fMRI多模态融合方法研究脑神经活动信息,确定激活源位置,进行各脑区间连接分析的方法是目前认知科学和神经科学领域的热点。经过十多年努力,EEG/fMRI融合方法在脑模型的构造、多模态数据融合算法等方面取得很大进展,并在脑功能成像分析领域得到广泛应用。为了能了解EEG/fMRI多模态融合方法的最新发展,本文总结了
近十年来该方法的主要进展,分别对融合算法中采用的脑模型和典型融合算法进行了分析和比较,介绍了EEG/fMRI融合方法在脑功能成像分析领域的具体应用,提出了当前研究面临的一些具体问题以及未来的研究方向。  相似文献   

4.
窦猛  陈哲彬  王辛  周继陶  姚宇 《计算机应用》2023,(11):3385-3395
多模态医学图像可以为临床医生提供靶区(如肿瘤、器官或组织)的丰富信息。然而,由于多模态图像之间相互独立且仅有互补性,如何有效融合多模态图像并进行分割仍是亟待解决的问题。传统的图像融合方法难以有效解决此问题,因此基于深度学习的多模态医学图像分割算法得到了广泛的研究。从原理、技术、问题及展望等方面对基于深度学习的多模态医学图像分割任务进行了综述。首先,介绍了深度学习与多模态医学图像分割的一般理论,包括深度学习与卷积神经网络(CNN)的基本原理与发展历程,以及多模态医学图像分割任务的重要性;其次,介绍了多模态医学图像分割的关键概念,包括数据维度、预处理、数据增强、损失函数以及后处理等;接着,对基于不同融合策略的多模态分割网络进行综述,对不同方式的融合策略进行分析;最后,对医学图像分割过程中常见的几个问题进行探讨,并对今后研究作了总结与展望。  相似文献   

5.
安卓赌博应用安装包中往往含有文本、图片、证书等大量可用于标识应用属性的多模态信息,针对当前赌博应用内容有害发现及安全研究较少、已有方法不具有针对性等问题,提出了一种基于多头注意力机制的多模态融合赌博应用识别模型.首先,提取赌博应用安装包中的图片信息,先后采用VGGNet和ResNet模型提取图片特征、识别图片信息;其次,提取赌博应用安装包中的文本信息,采用双向长短期记忆(BiLSTM)方法处理文本信息、识别文本内容;最后,基于多头注意力机制,建立多模态融合模型,对赌博应用进行综合性识别.通过在真实数据集上验证表明,采用不同文本和图片模型的平均准确率分别为71.5%和76%,该多模态融合模型的平均准确率为85.5%.可见,相比单一文本模型或图片模型,多模态融合模型有效提高了赌博应用的识别准确率.  相似文献   

6.
本文针对多模态情绪识别这一新兴领域进行综述。首先从情绪描述模型及情绪诱发方式两个方面对情绪识别的研究基础进行了综述。接着针对多模态情绪识别中的信息融合这一重难点问题,从数据级融合、特征级融合、决策级融合、模型级融合4种融合层次下的主流高效信息融合策略进行了介绍。然后从多种行为表现模态混合、多神经生理模态混合、神经生理与行为表现模态混合这3个角度分别列举具有代表性的多模态混合实例,全面合理地论证了多模态相较于单模态更具情绪区分能力和情绪表征能力,同时对多模态情绪识别方法转为工程技术应用提出了一些思考。最后立足于情绪识别研究现状的分析和把握,对改善和提升情绪识别模型性能的方式和策略进行了深入的探讨与展望。  相似文献   

7.
针对传统多模态融合模型对心理测评结果准确度不高的问题,提出一种基于注意力机制的心理测试系统。其中,针对采集到的多模态特征信息,包括面部和步态、语音信息等,通过注意力机制对特征权重进行分配,从而实现特征的融合,然后基于以上特征进行SVM识别,并比较融合前后的准确率。结果表明,通过注意力机制进行多模态特征融合后的模型,整体心理测评准确率达82.36%,提升6.45%,测评准确度较高;且针对测评难点人际关系敏感度指标,多模态特征融合后其测评准确率从66.19%提高至78.38%。由此得出,注意力机制的引入可弥补传统多模态融合测评的不足之处,提升改进的融合模型系统的心理测评准确性。  相似文献   

8.
随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。  相似文献   

9.
不同模态的表现方式不同,描述目标的角度也会不同。多模态感知与多源融合技术是将两种或两种以上的模态组合起来,融合不同传感器、不同平台收集到的数据、特征信息,兼顾不同图像的优势,在遥感监测、军事安防、自动驾驶等领域有着广泛的运用。介绍了热成像、高光谱成像、偏振成像、合成孔径雷达(SAR)、激光雷达(LiDAR)等多模态感知技术,总结了不同成像方式的特点与联系,简述了多源融合相关概念及其技术发展历程,重点分析了不同模态下图像融合案例,在此基础上归纳多模态感知和多源融合技术的发展趋势,最后基于融合算法、系统整体性、评价指标总结出进一步发展方向。  相似文献   

10.
方面级多模态情感分类任务的一个关键是从文本和视觉两种不同模态中准确地提取和融合互补信息, 以检测文本中提及的方面词的情感倾向. 现有的方法大多数只利用单一的上下文信息结合图片信息来分析, 存在对方面和上下文信息、视觉信息的相关性的识别不敏感, 对视觉中的方面相关信息的局部提取不够精准等问题, 此外, 在进行特征融合时, 部分模态信息不全会导致融合效果一般. 针对上述问题, 本文提出一种注意力融合网络AF-Net模型去进行方面级多模态情感分类, 利用空间变换网络STN学习图像中目标的位置信息来帮助提取重要的局部特征; 利用基于Transformer的交互网络对方面和文本以及图像之间的关系进行建模, 实现多模态交互; 同时补充了不同模态特征间的相似信息以及使用多头注意力机制融合多特征信息, 表征出多模态信息, 最后通过Softmax层取得情感分类的结果. 在两个基准数据集上进行实验和对比, 结果表明AF-Net能获得较好的性能, 提升方面级多模态情感分类的效果.  相似文献   

11.
黄志忠  潘汉 《传感技术学报》2021,34(10):1354-1359
多模图像融合可有效提升多传感器系统的目标信息表征能力.然而,常用的图像融合方法只能融合两个模态传感器的信息.针对上述问题,充分利用多模图像空间与频谱信息的高阶相关性及其内在结构特性,基于图像域的非局部自相似特性,引入复合正则化方法,提出基于全局稀疏梯度与低秩张量正则化的多模图像融合方法,实现高光谱、多光谱和全色图像的同时融合.其中,多模图像的频谱信息使用全局稀疏梯度正则化方法,空间信息使用低秩张量正则化方法.上述复合正则化方法的优点在于可以有效对空间与频谱信息的内在结构特性进行建模,消除图像空间域的阶梯效应,减少伪频谱信息的引入.仿真实验验证了该方法的可行性和有效性.该方法为多传感器融合系统提供理论与技术支撑.  相似文献   

12.
针对传统情感分析方法无法解决短视频情感表达问题以及现有多模态情感分析方法准确率不高、不同模态信息之间交互性差等问题,通过对多模态情感分析方法进行研究,结合时域卷积网络(TCN)和软注意力机制建立了复合层次融合的多模态情感分析模型。该模型首先将视频中提取到的文本特征、视频面部特征和音频特征进行维度均衡,然后将得到的不同模态的信息特征进行复合式融合,即先将单模态信息进行融合得到双模态特征信息,再将得到的三个双模态信息进行融合,得到最终的三模态信息,最后将得到的三模态信息和每个单模态信息进行融合得到最终的多模态情感特征信息。每次融合的特征信息都经过TCN网络层进行序列特征的提取,将最终得到的多模态特征信息通过注意力机制进行筛选过滤后用于情感分类,从而得到预测结果。在数据集CMU-MOSI和CMU-MOSEI上的实验表明,该模型能够充分利用不同模态间的交互信息,有效提升多模态情感分析的准确率。  相似文献   

13.
谣言会对社会生活造成不利影响,同时具有多种模态的网络谣言比纯文字谣言更容易误导用户和传播,这使得对多模态的谣言检测不可忽视。目前关于多模态谣言检测方法没有关注词与图片区域对象之间的特征融合,因此提出了一种基于注意力机制的多模态融合网络AMFNN应用于谣言检测,该方法在词-视觉对象层面进行高级信息交互,利用注意力机制捕捉与关键词语相关的视觉特征;提出了基于自注意力机制的自适应注意力机制Adapive-SA,通过增加辅助条件来约束内部的信息流动,使得模态内的关系建模更有目标性和多样性。在两个多模态谣言检测数据集上进行了对比实验,结果表明,与目前相关的多模态谣言检测方法相比,AMFNN能够合理地处理多模态信息,从而提高了谣言检测的准确性。  相似文献   

14.
多源信息融合的一个主要应用方向是目标识别, Dezert-Smarandache理论(DSmT)是一种有用的不确定推理方法, 能较好地解决强冲突情况下的信息融合问题. 在经典DSmT的融合过程基础上提出3种递归时空信息融合的方法: 集中式、分布式无反馈和分布式有反馈的融合方法. 当系统引入完整性约束条件时, 需要采用证据的冲突系数来确定组合顺序, 这在一定程度上克服了混合DSm组合规则不满足结合律的缺陷. 最后用数值算例说明了本文所提出方法的有效性.  相似文献   

15.
多媒体场景本质是视频音频等多模态信息交互融合的结果,尽管每个模表达了一定的语义,但是多媒体场景完整表达要通过多模态信息去共同体现.本文提出使用视频音频双模态特征融合技术形成的超级隐马尔可夫链进行多媒体场景识别.实验数据表明,与只使用单模态信息识别多媒体场景的方法相比,超级隐马可夫链取得了更好的识别正确率.  相似文献   

16.
多模态情感分析作为近年来的研究热点,比单模态情感分析具有更高的稳定性和准确率.介绍了多模态情感分析研究背景,分别对基于文本的、基于音频的和基于视频的单模态情感算法分析进行了阐述,又讲解了多模态的3种融合方法:特征级融合、决策级融合和混合融合以及相关算法,并分析了多模态情感分析存在的问题.  相似文献   

17.
面向自然交互的多通道人机对话系统   总被引:1,自引:0,他引:1  
人们在对话过程中,除了使用口语交互外,还会很自然地利用表情、姿态等多模态信息辅助交流。重点分析并阐述了如何将这些多模态交互方式有效地融合到人机对话模型中,并实现一个面向自然交互的多模态人机对话系统。首先根据不同通道(如情感、头姿)对语音交互的影响,将它们主要分为信息互补、信息融合和信息独立3种模式,并针对3种模式分别采用不同的方式实现输入信息的多模态融合。信息融合后的对话管理,采用有限自动机、填槽法和混合主导方式的对话管理策略。针对对话中的情感处理,提出一种情感状态预测网络来记录用户的情感变化,并根据话语的轮转的不同对话上下文对用户情绪变化进行及时反馈,该对话模型能比较灵活地处理用户在对话过程中呈现的多模态信息。信息输出方面,针对人机对话中较为常用的数字虚拟人的行为控制,提出了一种简化的多模态协同置标语言,实现了虚拟人的包括情感、姿态与语音的同步表达,提高了虚拟人的表现力。最后基于以上关键技术,实现了一个面向城市路况信息查询的多模态自然人机对话系统。多个用户的体验表明,相对于传统的语音人机对话模型,多通道自然人机对话系统能有效提高用户交互的自然度。  相似文献   

18.
针对现有多模态情感分析方法中存在情感分类准确率不高,难以有效融合多模态特征等问题,通过研究分析相邻话语之间的依赖关系和文本、语音和视频模态之间的交互作用,建立一种融合上下文和双模态交互注意力的多模态情感分析模型.该模型首先采用双向门控循环单元(BiGRU)捕获各模态中话语之间的相互依赖关系,得到各模态的上下文信息.为了...  相似文献   

19.
情感识别研究热点正从单模态转移到多模态。针对多模态情感特征提取与融合的技术难点,本文列举了目前应用较广的多模态情感识别数据库,介绍了面部表情和语音情感这两个模态的特征提取技术,重点阐述了多模态情感融合识别技术,主要对多模态情感特征融合策略和融合方法进行了综述,对不同算法下的识别效果进行了对比。最后,对多模态情感识别研究中存在的问题进行了探讨,并对未来的研究方向进行了展望。  相似文献   

20.
抑郁症是一种精神疾病,严重时会导致自杀行为的发生。当前抑郁症患者人数正变得越来越多,越来越普遍化、年轻化。采用机器学习方法开展面向音频、视频等模态信息的多模态抑郁症识别研究已成为一个计算机科学、心理学、医学等多学科交叉的热点课题。近年来,新发展起来的深度学习技术也逐渐被应用于面向音频、视频等模态信息的多模态抑郁症识别中的深度特征提取任务。为了系统总结和归纳近年来深度学习技术在多模态抑郁症识别领域的研究进展,首先介绍了抑郁症的临床表现及心理学诊断方法,随后简要总结了现有的抑郁症数据集,并阐述了代表性深度学习技术的基本原理及进展情况;然后,系统分析和总结了面向音频、视频的多模态抑郁症识别涉及到的关键技术,包括手工特征提取和深度特征提取,以及多模态信息融合策略;最后,指出了该领域存在的机遇与挑战,并对下一步的研究方向进行了总结与展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号