首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
针对在多模态MR图像分割中对不同模态特征间的关联性及全局和局部特征提取考虑不充分,导致分割精度降低的问题,基于注意力机制,提出多模态脑肿瘤MR图像分割方法.首先提出三重注意力模块,用于增强各模态特征间的关联性以及对感兴趣区域的位置和边界信息精确判断;然后设计空间和通道注意力模块,用于双重捕获空间和通道上的全局及局部特征,增强对肿瘤组织结构信息的学习能力.在公开数据集BraTs18和BraTs19上的实验结果表明,分割全肿瘤时,所提方法的Dice系数、精确率、灵敏度和Hausdorff距离分别达到了90.62%, 87.89%, 90.08%和2.258 3,均优于对比的同类方法.  相似文献   

2.
多模态神经机器翻译是指直接采用神经网络,以端到端方式融合图像和文本两种模态信息,以此进行翻译建模的机器学习方法。传统多模态机器翻译,是在将源语言翻译成目标语言时,借助图像中的重要特征信息优化翻译过程。但是观察发现,图像里的信息不一定出现在文本中,对翻译也会带来干扰;与参考译文对比,翻译结果中出现了过翻译和欠翻译的情况。针对以上问题,该文提出一种融合覆盖机制双注意力解码方法,用于优化现有多模态神经机器翻译模型。该模型借助覆盖机制分别作用于源语言和源图像,在注意力计算过程中,可以减少对过去重复信息的关注。在WMT16、WMT17测试集上进行实验,验证了上述方法的有效性,在WMT16英德和英法以及WMT17英德和英法测试集上,对比基准系统BLEU值分别提升了1.2,0.8,0.7和0.6个百分点。  相似文献   

3.
现有分析社会媒体中用户情感的方法,大多依赖于某一种模态数据的信息,缺少多种模态数据的信息融合,并且现有方法缺少分析多种模态数据的信息层次结构之间的关联。针对上述问题,该文提出多层次特征融合注意力网络,在分别提取社会媒体中文本和图像多层次特征的基础上,通过计算“图文”特征与“文图”特征,实现多模态的情感特征互补,从而准确感知社会媒体中用户的情感。在Yelp和MultiZOL数据集上的实验结果表明,该文方法可有效提升多模态数据情感分类的准确率。  相似文献   

4.
目的 现有医学图像超分辨率方法主要针对单一模态图像进行设计,然而在磁共振成像(magnetic resonance imaging, MRI)技术的诸多应用场合,往往需要采集不同成像参数下的多模态图像。针对单一模态的方法无法利用不同模态图像之间的关联信息,很大程度上限制了重建性能。目前超分辨率网络模型参数量往往较大,导致计算和存储代价较高。为此,本文提出了一个轻量级残差密集注意力网络,以一个统一的网络模型同时实现多模态MR图像的超分辨率重建。方法 首先将不同模态的MR图像堆叠后输入网络,在低分辨率空间中提取共有特征,之后采用设计的残差密集注意力模块进一步精炼特征,再通过一个亚像素卷积层上采样到高分辨率空间,最终分别重建出不同模态的高分辨率图像。结果 本文采用MICCAI (medical image computing and computer assisted intervention) BraTS (brain tumor segmentation) 2019数据集中的T1和T2加权MR图像对网络进行训练和测试,并与8种代表性超分辨率方法进行对比。实验结果表明,本文方法可以取得优于...  相似文献   

5.
针对目前弹性图像配准方法较难应用于多模态图像的问题,提出了一种转化图像模态的解决方案。计算图像中每个灰度值在另一幅图像中对应像素的灰度均值,使用该均值代替原图像中对应的像素值,两幅图像灰度被转换为基本一致的状态,使用局部仿射模型配准图像。将灰度转换后的图像与目标图像配准,再将图像的形变参数映射到浮动图像中就可以实现多模态的图像配准。实验结果表明该方法可将局部仿射模型成功地用于多模态图像配准。  相似文献   

6.
随着社交媒体的快速发展,多模态语义轨迹的预测成为新的挑战。轨迹点间的依赖关系在预测中起到重要作用,同时也存在着以下挑战:轨迹信息中包含多种模态信息(时间、兴趣点和活动文本等),存在时间、空间和活动意图等多种依赖,这些依赖关系很复杂,现有方法很难量化这些复杂依赖关系。为了解决以上问题,提出一种基于自注意力机制的多模态语义轨迹预测模型SAMSTP。SAMSTP先对多模态特征进行联合嵌入,再设计自注意力机制结合Position Encoding计算轨迹点之间的特征相似度,自动学习并量化复杂依赖权重,同时解决轨迹的长期依赖关系。最后,采用LSTM网络处理轨迹时序关系,并设计模式规范化机制解决依赖关系失真问题,加快模型收敛速度。在真实数据集上的实验结果表明,SAMSTP是有效的,并且优于现有最新方法。  相似文献   

7.
近年来,幽默识别逐渐成为自然语言处理领域的热点研究之一。已有的研究多聚焦于文本上的幽默识别,在多模态数据上开展此任务的研究相对较少,现有方法在学习模态间交互信息上存在不足。该文提出了基于注意力机制的模态融合模型,首先对单模态上下文进行独立编码,得到单一模态的特征向量;然后将注意力机制作用于两种模态的特征序列,使用层级注意力结构捕获多模态信息在段落上下文中的关联与交互。该文在UR-FUNNY公开数据集上进行了实验,相比之前最优结果在精确率上提升了1.37%。实验表明,该文提出的模型能很好地对多模态上下文进行建模,引入多模态交互信息和段落上下文信息可提高幽默识别的性能。  相似文献   

8.
谣言会对社会生活造成不利影响,同时具有多种模态的网络谣言比纯文字谣言更容易误导用户和传播,这使得对多模态的谣言检测不可忽视。目前关于多模态谣言检测方法没有关注词与图片区域对象之间的特征融合,因此提出了一种基于注意力机制的多模态融合网络AMFNN应用于谣言检测,该方法在词-视觉对象层面进行高级信息交互,利用注意力机制捕捉与关键词语相关的视觉特征;提出了基于自注意力机制的自适应注意力机制Adapive-SA,通过增加辅助条件来约束内部的信息流动,使得模态内的关系建模更有目标性和多样性。在两个多模态谣言检测数据集上进行了对比实验,结果表明,与目前相关的多模态谣言检测方法相比,AMFNN能够合理地处理多模态信息,从而提高了谣言检测的准确性。  相似文献   

9.
为了获取到更加细粒度的图像表示,防止图像特征获取时关键信息的丢失,论文采用融合多头自注意机制的图像特征提取模型,来获取图像特征。通过对问题文本信息使用自注意力机制并用来引导图像注意,增强问题文本特征与图像特征之间的关联性,获取图像特征中与问题文本相关的信息。将最终获取到的图像特征与问题特征进行多模态特征融合,并对融合特征进行分类预测。实验结果表明,论文方法在VQA1.0数据集上,总体准确率为64.6%,在VQA2.0数据集上,总体准确率为63.9%,从而验证了论文方法的有效性,相比一些经典的方法都有较好的提升。  相似文献   

10.
针对多模态情感分析中的模态内部特征表示和模态间的特征融合问题,结合注意力机制和多任务学习,提出了一种基于注意力的多层次混合融合的多任务多模态情感分析模型MAM(multi-level attention and multi-task)。首先,利用卷积神经网络和双向门控循环单元来实现单模态内部特征的提取;其次,利用跨模态注意力机制实现模态间的两两特征融合;再次,在不同层次使用自注意力机制实现模态贡献度选择;最后,结合多任务学习获得情感和情绪的分类结果。在公开的CMU-MOSEI数据集上的实验结果表明,情感和情绪分类的准确率和F;值均有所提升。  相似文献   

11.
方面级多模态情感分类任务的一个关键是从文本和视觉两种不同模态中准确地提取和融合互补信息, 以检测文本中提及的方面词的情感倾向. 现有的方法大多数只利用单一的上下文信息结合图片信息来分析, 存在对方面和上下文信息、视觉信息的相关性的识别不敏感, 对视觉中的方面相关信息的局部提取不够精准等问题, 此外, 在进行特征融合时, 部分模态信息不全会导致融合效果一般. 针对上述问题, 本文提出一种注意力融合网络AF-Net模型去进行方面级多模态情感分类, 利用空间变换网络STN学习图像中目标的位置信息来帮助提取重要的局部特征; 利用基于Transformer的交互网络对方面和文本以及图像之间的关系进行建模, 实现多模态交互; 同时补充了不同模态特征间的相似信息以及使用多头注意力机制融合多特征信息, 表征出多模态信息, 最后通过Softmax层取得情感分类的结果. 在两个基准数据集上进行实验和对比, 结果表明AF-Net能获得较好的性能, 提升方面级多模态情感分类的效果.  相似文献   

12.
近年来,神经机器翻译(neural machine translation, NMT)表现出极大的优越性,然而如何在翻译一个文档时考虑篇章上下文信息仍然是一个值得探讨的问题。传统的注意力机制对源端的所有词语进行计算,而在翻译当前句子时篇章中大量的信息中只有小部分是与之相关的。在篇章级机器翻译中,采用传统的注意力机制建模篇章信息存在着信息冗余的问题。该文提出了一种联合注意力机制,结合“硬关注”和“软关注”的机制对篇章上下文的信息进行建模。关键思想是通过“硬关注”筛选出与翻译当前句子相关的源端历史词语,然后采用“软关注”的方法进一步抽取翻译中所需的上下文信息。实验表明,相比于基线系统,该方法能使翻译性能获得明显提升。  相似文献   

13.
针对可见光模态与热红外模态间的差异问题和如何充分利用多模态信息进行行人检测,本文提出了一种基于YOLO的多模态特征差分注意融合行人检测方法.该方法首先利用YOLOv3深度神经网络的特征提取主干分别提取多模态特征;其次在对应多模态特征层之间嵌入模态特征差分注意模块充分挖掘模态间的差异信息,并经过注意机制强化差异特征表示进而改善特征融合质量,再将差异信息分别反馈到多模态特征提取主干中,提升网络对多模态互补信息的学习融合能力;然后对多模态特征进行分层融合得到融合后的多尺度特征;最后在多尺度特征层上进行目标检测,预测行人目标的概率和位置.在KAIST和LLVIP公开多模态行人检测据集上的实验结果表明,提出的多模态行人检测方法能有效解决模态间的差异问题,实现多模态信息的充分利用,具有较高的检测精度和速度,具有实际应用价值.  相似文献   

14.
结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。  相似文献   

15.
早期蕈样肉芽肿(Mycosis fungoid, MF)可表现为红斑鳞屑性皮损,很难从银屑病及慢性湿疹等良性炎症性皮肤病中鉴别出来。本文提出了一种基于多模态图像融合的早期蕈样肉芽肿识别方法。该方法基于皮肤镜图像和临床图像,采用ResNet18网络提取单模态图像的特征;设计跨模态的注意力模块,实现两种模态图像的特征融合;并且设计自注意力模块提取融合特征中的关键信息,改善信息冗余,从而提高蕈样肉芽肿智能识别的准确度。实验结果表明,本文所提出的智能诊断模型优于对比算法。将本文模型应用于皮肤科医生的实际临床诊断,通过实验组医生和对照组医生平均诊断准确率的变化证实了本文模型能够有效提升临床诊断水平。  相似文献   

16.
图片描述翻译是给定图片及图片在某一语言的描述,利用翻译技术为图片生成目标语言描述的任务。观察发现,不同图片表达的场景往往不同,对应的图片描述具有明显的主题差异性。因此,利用主题信息能够提升翻译效果。然而,图片描述的内容通常较短,无法有效反映其主题。针对该问题,该文提出了一种融合图片主题信息的图片描述翻译方法。对于任意的图片描述对,该方法首先借助相似图片检索技术从维基百科图片库中检索与源图片相似的目标图片,进而利用包含目标图片的文档学习源图片的主题表示。最终,利用训练集中所有图片描述对的主题表示重新学习并获取适应主题的翻译模型。实验结果表明,借助相似图片获取信息量更为丰富的描述文本,并利用文本的主题信息强化翻译模型的方法,能够提高现有统计机器翻译系统的性能,在WMT16测试集上进行的评测显示,翻译质量的BLEU值提升了0.74个百分点。  相似文献   

17.
随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求,如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构,总结了三个常见的融合模型,简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面,对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题,并提出未来的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号