共查询到19条相似文献,搜索用时 78 毫秒
1.
近年来,幽默识别逐渐成为自然语言处理领域的热点研究之一。已有的研究多聚焦于文本上的幽默识别,在多模态数据上开展此任务的研究相对较少,现有方法在学习模态间交互信息上存在不足。该文提出了基于注意力机制的模态融合模型,首先对单模态上下文进行独立编码,得到单一模态的特征向量;然后将注意力机制作用于两种模态的特征序列,使用层级注意力结构捕获多模态信息在段落上下文中的关联与交互。该文在UR-FUNNY公开数据集上进行了实验,相比之前最优结果在精确率上提升了1.37%。实验表明,该文提出的模型能很好地对多模态上下文进行建模,引入多模态交互信息和段落上下文信息可提高幽默识别的性能。 相似文献
2.
在多模态语音情感识别中,现有的研究通过提取大量特征来识别情感,但过多的特征会导致关键特征被淹没在相对不重要特征里,造成关键信息遗漏.为此提出了一种模型融合方法,通过两种注意力机制来寻找可能被遗漏的关键特征.本方法在IEMOCAP数据集上的四类情感识别准确率相比现有文献有明显提升;在注意力机制可视化下,两种注意力机制分别找到了互补且对人类情感识别重要的关键信息,从而证明了所提方法相比传统方法的优越性. 相似文献
3.
PD (Parkinson’s disease) 的运动障碍会累及口、咽、腭肌以及面部肌肉,引起声带震颤和面部运动迟缓,为利用声纹和面部特征识别PD患者提供了可能。为了有效利用以上两种特征以提高PD 识别率,提出了基于多尺度特征与动态注意力机制的多模态循环融合模型对患者进行识别检测。首先,设计了多尺度特征提取网络,将高、低层级特征的语义信息融合以得到完整的特征信息;其次,在多尺度特征融合过程中为了充分考虑模态间的相关性和互补性,提出了以不同模态信息互为辅助条件生成注意力特征图的动态注意力机制算法,降低特征融合时信息的冗余;最后设计了多模态循环融合模型,通过计算循环矩阵的每个行向量与特征向量间的哈达玛积得到更有效的融合特征,提高了模型性能。在自建数据集上进行的多组实验结果表明,提出的方法识别准确率高达96.24%,优于当前流行的单模态和多模态识别算法,可以有效区分PD患者和HP (healthy people),为高效识别PD患者奠定了基础。 相似文献
4.
为了提高语音和文本融合的情绪识别准确率,提出一种基于Transformer-ESIM(Transformer-enhanced sequential inference model)注意力机制的多模态情绪识别方法.传统循环神经网络在语音和文本序列特征提取时存在长期依赖性,其自身顺序属性无法捕获长距离特征,因此采用Tra... 相似文献
5.
传统的视频字幕生成模型大多都采用编码器—译码器框架。在编码阶段,使用卷积神经网络对视频进行处理。在解码阶段,使用长短期记忆网络生成视频的相应字幕。基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型。该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述。这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较基础模型有0.2%~3.8%的提升。根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕。 相似文献
6.
探索高效的模态表示和多模态信息交互方法一直是多模态虚假新闻检测领域的热门话题,提出了一项新的虚假新闻检测技术(MAM)。MAM方法使用结合位置编码的自注意力机制和预训练的卷积神经网络分别提取文本和图像特征;引入混合注意力机制模块进行文本与图像特征交互,该模块使用了层级特征处理方法来减少多模态交互时产生的冗余信息,又使用了双向的特征融合手段保证训练信息的完整性;加权融合多模态特征并将其输入全连接网络中进行真假新闻分类。对比实验结果表明:相比现有的多模态基准模型,该方法几乎在各个分类指标上都提高3个百分点左右,此外,可视化实验发现混合注意力机制获得的多模态特征具有更强的泛化能力。 相似文献
7.
谣言会对社会生活造成不利影响,同时具有多种模态的网络谣言比纯文字谣言更容易误导用户和传播,这使得对多模态的谣言检测不可忽视。目前关于多模态谣言检测方法没有关注词与图片区域对象之间的特征融合,因此提出了一种基于注意力机制的多模态融合网络AMFNN应用于谣言检测,该方法在词-视觉对象层面进行高级信息交互,利用注意力机制捕捉与关键词语相关的视觉特征;提出了基于自注意力机制的自适应注意力机制Adapive-SA,通过增加辅助条件来约束内部的信息流动,使得模态内的关系建模更有目标性和多样性。在两个多模态谣言检测数据集上进行了对比实验,结果表明,与目前相关的多模态谣言检测方法相比,AMFNN能够合理地处理多模态信息,从而提高了谣言检测的准确性。 相似文献
8.
社交网络的发展为情感分析研究提供了大量的多模态数据.结合多模态内容进行情感分类可以利用模态间数据的关联信息,从而避免单一模态对总体情感把握不全面的情况.使用简单的共享表征学习方法无法充分挖掘模态间的互补特征,因此提出多模态双向注意力融合(Multimodal Bidirectional Attention Hybrid... 相似文献
9.
对煤矿井下人员不安全行为进行实时视频监控及报警是提升安全生产水平的重要手段。煤矿井下环境复杂,监控视频质量不佳,导致常规基于图像特征或基于人体关键点特征的行为识别方法在煤矿井下应用受限。提出了一种基于交叉注意力机制的多特征融合行为识别模型,用于识别煤矿井下人员不安全行为。针对分段视频图像,采用3D ResNet101模型提取图像特征,采用openpose算法和ST-GCN(时空图卷积网络)提取人体关键点特征;采用交叉注意力机制对图像特征和人体关键点特征进行融合处理,并与经自注意力机制处理后的图像特征和人体关键点特征拼接,得到最终行为识别特征;识别特征经全连接层及归一化指数函数softmax处理后,得到行为识别结果。基于公共数据集HMDB51和UCF101、自建的煤矿井下视频数据集进行行为识别实验,结果表明:采用交叉注意力机制可使行为识别模型更有效地融合图像特征和人体关键点特征,大幅提高识别准确率;与目前应用最广泛的行为识别模型SlowFast相比,基于交叉注意力机制的多特征融合行为识别模型在HMDB51和UCF101数据集上的识别准确率分别提高1.8%,0.9%,在自建数据集上的识别准... 相似文献
10.
人脸反欺骗技术可以准确判断捕获的人脸图像是真实人脸还是虚假人脸,是人脸识别系统安全的重要保障.传统的人脸反欺骗方法主要是利用手工设计的特征,如LBP、HoG、SIFT、SURF和DoG来刻画真实人脸和虚假人脸之间的不同特征分布,但人工设计的特征难以适应无约束环境下(如光照、背景的变化)的人脸反欺骗问题.鉴于此,该文提出... 相似文献
11.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。 相似文献
12.
13.
针对室内复杂场景中, 图像语义分割存在的特征损失和双模态有效融合等问题, 提出了一种基于编码器-解码器架构的融合注意力机制的轻量级语义分割网络. 首先采用两个残差网络作为主干网络分别对RGB和深度图像进行特征提取, 并在编码器中引入极化自注意力机制, 然后设计引入双模态融合模块在不同阶段对RGB特征和深度特征进行有效融合, 接着引入并行聚合金字塔池化以获取区域之间的依赖性. 最后, 采用3个不同尺寸的解码器将前面的多尺度特征图进行跳跃连接并融合解码, 使分割结果含有更多的细节纹理. 将本文提出的网络模型在NYUDv2数据集上进行训练和测试, 并与一些较先进RGB-D语义分割网络对比, 实验证明本文网络具有较好分割性能. 相似文献
14.
15.
现有的大多数RGB-D显著性目标检测方法利用深度图来提高检测效果,而忽视了其质量的影响。低质量的深度图会对最终显著目标预测结果造成污染,影响显著性检测的性能。为了消除低质量深度图带来的干扰,并准确突出RGB图像中的显著目标,提出了一个用于多模态特征交互的RGB-D显著性目标检测模型。在编码阶段,设计了一个特征交互模块,其包含三个子模块:用于增强特征表述能力的全局特征采集子模块、用于过滤低质量深度信息的深度特征精炼子模块和用于实现特征融合的多模态特征交互子模块。在解码阶段,逐层融合经过特征交互后的多模态特征,实现多层次特征融合。通过在五个基准数据集上与十二种先进方法进行的综合实验表明,该模型在NLPR、SIP和NJU2K数据集上的指标上均优于其他对比方法,其中在NJU2K数据集上,该模型的性能比第二名在平均F值上提升了0.008,加权F值上提升了0.014,E-measure上提升了0.007,表现出了较好的检测效果。 相似文献
16.
行为识别是当今计算机视觉领域的一个研究热点,是一项具有挑战性的任务.行为识别分析与其网络输入数据类型、网络结构、特征融合环节具有密切联系.目前,主流的行为识别网络输入数据为RGB图像和光流图像,网络结构主要以双流和3D卷积为主;而特征选择直接影响到识别的效率,多层次的特征融合工作还有很多问题有待解决.针对主流的双流卷积网络输入数据为RGB图像和光流图像的局限,利用低秩空间中稀疏特征能够有效捕捉视频中运动物体信息的特点,对网络输入数据进行补充.同时,针对网络中缺乏信息交互的特点,将深度网络中高层语义信息和低层细节信息结合起来共同识别行为动作,使时序分割网络性能更具优势.在行为识别数据集UCF101和HMDB51上取得了97.1%和76.7%的识别效果,较目前主流算法有了较大的提升.实验结果表明,该方法能够有效地提高行为识别的识别率. 相似文献
17.
近年来, 基于深度卷积神经网络的单图像超分辨率重建, 取得了显著的进展, 但是, 仍然存在诸如特征利用率低、网络参数量大和重建图像细节纹理模糊等问题. 我们提出了基于特征融合注意网络的单图像超分辨率方法, 网络模型主要包括特征融合子网络和特征注意子网络. 特征融合子网络可以更好地融合不同深度的特征信息, 以及增加跨通道的学习能力; 特征注意子网络则着重关注高频信息, 以增强边缘和纹理. 实验结果表明: 无论是主观视觉效果, 还是客观度量, 我们方法的超分辨率性能明显优于其他代表性的方法. 相似文献
18.
一些主流的图像任意风格迁移模型在保持内容图像的显著性信息和细节特征方面依然有局限性, 生成的图像往往具有内容模糊、细节失真等问题. 针对以上问题, 本文提出一种可以有效保留内容图像细节特征的图像任意风格迁移模型. 模型包括灵活地融合从编码器提取到的浅层至深层的多层级图像特征; 提出一种新的特征融合模块, 该模块可以高质量地融合内容特征和风格特征. 此外, 还提出一个新的损失函数, 该损失函数可以很好地保持内容和风格全局结构, 消除伪影. 实验结果表明, 本文提出的图像任意风格迁移模型可以很好地平衡风格和内容, 保留内容图像完整的语义信息和细节特征, 生成视觉效果更好的风格化图像. 相似文献
19.
局部特征信息在图像分割中扮演着重要角色,然而基于文本的实例分割任务具有对输入文本表达式的依赖性,无法直接从原始的输入图像中提取局部特征信息。针对这一问题,提出了一种具体的名词引导局部特征提取的深度神经网络模型(NgLFNet),NgLFNet模型可根据输入文本表达式中的关键名词来自动挖掘待分割对象的局部特征信息。具体地,该模型首先通过语句分析得到关键名词;其次通过文本和图像编码器提取相应特征,并利用关键名词通过多头注意力机制获取高关注区域局部特征;然后逐步融合多模态特征;最后在解码修正模块利用得到的局部特征对预测掩膜进行更细致的修正,从而得到最终结果。将该方法与多种主流基于文本的实例分割方法进行对比,实验结果表明该方法提升了分割效果。 相似文献