首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 859 毫秒
1.
随着图像、文本、声音、视频等多模态网络数据的急剧增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,由于其存在异构性差异,在不同的数据模态之间寻找内容相似性仍然具有挑战性。现有方法大都将异构数据通过映射矩阵或深度模型投射到公共子空间,来挖掘成对的关联关系,即图像和文本的全局信息对应关系,而忽略了数据内局部的上下文信息和数据间细粒度的交互信息,无法充分挖掘跨模态关联。为此,文中提出文本-图像协同注意力网络模型(CoAN),通过选择性地关注多模态数据的关键信息部分来增强内容相似性的度量。CoAN利用预训练的VGGNet模型和循环神经网络深层次地提取图像和文本的细粒度特征,利用文本-视觉注意力机制捕捉语言和视觉之间的细微交互作用;同时,该模型分别学习文本和图像的哈希表示,利用哈希方法的低存储特性和计算的高效性来提高检索速度。在实验得出,在两个广泛使用的跨模态数据集上,CoAN的平均准确率均值(mAP)超过所有对比方法,文本检索图像和图像检索文本的mAP值分别达到0.807和0.769。实验结果说明,CoAN有助于检测多模态数据的关键信息区域和数据间细粒度的交互信息,充分挖掘跨模态数据的内容相似性,提高检索精度。  相似文献   

2.
随着深度学习方法的不断发展,跨模态哈希检索技术也取得了长足的进步。但是,目前的跨模态哈希检索方法通常基于两种假设:a)相似文本描述的图像内容也相似;b)相同类别的图像有着较好的全局相似性。但是,真实数据集中的数据往往不能满足以上两种假设,导致了跨模态哈希检索模型性能的降低。针对以上两个问题,提出了一种基于文本引导对抗哈希的跨模态检索方法(text-guided adversarial hashing for cross-modal retrieval, TAH),此方法在构建的网络结构基础上,将文本哈希码作为训练图像网络的基础,并将图像的局部特征与全局特征结合用于表示图像内容。此外,还针对性地提出了文本模态内全局一致性损失、模态间局部与全局一致性损失和分类对抗损失用于训练跨模态网络。实验证明,TAH可以在三个数据集中取得良好的检索性能。  相似文献   

3.
探索高效的模态表示和多模态信息交互方法一直是多模态虚假新闻检测领域的热门话题,提出了一项新的虚假新闻检测技术(MAM)。MAM方法使用结合位置编码的自注意力机制和预训练的卷积神经网络分别提取文本和图像特征;引入混合注意力机制模块进行文本与图像特征交互,该模块使用了层级特征处理方法来减少多模态交互时产生的冗余信息,又使用了双向的特征融合手段保证训练信息的完整性;加权融合多模态特征并将其输入全连接网络中进行真假新闻分类。对比实验结果表明:相比现有的多模态基准模型,该方法几乎在各个分类指标上都提高3个百分点左右,此外,可视化实验发现混合注意力机制获得的多模态特征具有更强的泛化能力。  相似文献   

4.
哈希检索具有存储消耗低、查询速度快等优点,被广泛应用于跨模态检索研究,其中基于深度学习的跨模态哈希方法是热点研究问题.大多数深度哈希方法通常在多模态数据的特征关联性学习过程中忽略了数据内容的潜在相关性和语义判别性,从而导致哈希码的关联性不强,容易造成原始数据特征和神经网络特征的不兼容问题.针对以上问题,本文提出一种图像...  相似文献   

5.
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F3模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F3  相似文献   

6.
针对现阶段深度跨模态哈希检索算法无法较好地检索训练数据类别以外的数据及松弛哈希码离散化约束造成的次优解等问题,提出自适应深度跨模态增量哈希检索算法,保持训练数据的哈希码不变,直接学习新类别数据的哈希码。同时,将哈希码映射到潜在子空间中保持多模态数据之间的相似性和非相似性,并提出离散约束保持的跨模态优化算法来求解最优哈希码。此外,针对目前深度哈希算法缺乏有效的复杂度评估方法,提出基于神经网络神经元更新操作的复杂度分析方法,比较深度哈希算法的复杂度。公共数据集上的实验结果显示,所提算法的训练时间低于对比算法,同时检索精度高于对比算法。  相似文献   

7.
方面级多模态情感分类任务的一个关键是从文本和视觉两种不同模态中准确地提取和融合互补信息, 以检测文本中提及的方面词的情感倾向. 现有的方法大多数只利用单一的上下文信息结合图片信息来分析, 存在对方面和上下文信息、视觉信息的相关性的识别不敏感, 对视觉中的方面相关信息的局部提取不够精准等问题, 此外, 在进行特征融合时, 部分模态信息不全会导致融合效果一般. 针对上述问题, 本文提出一种注意力融合网络AF-Net模型去进行方面级多模态情感分类, 利用空间变换网络STN学习图像中目标的位置信息来帮助提取重要的局部特征; 利用基于Transformer的交互网络对方面和文本以及图像之间的关系进行建模, 实现多模态交互; 同时补充了不同模态特征间的相似信息以及使用多头注意力机制融合多特征信息, 表征出多模态信息, 最后通过Softmax层取得情感分类的结果. 在两个基准数据集上进行实验和对比, 结果表明AF-Net能获得较好的性能, 提升方面级多模态情感分类的效果.  相似文献   

8.
当前主流的Web图像检索方法仅考虑了视觉特征,没有充分利用Web图像附带的文本信息,并忽略了相关文本中涉及的有价值的语义,从而导致其图像表达能力不强。针对这一问题,提出了一种新的无监督图像哈希方法——基于语义迁移的深度图像哈希(semantic transfer deep visual hashing,STDVH)。该方法首先利用谱聚类挖掘训练文本的语义信息;然后构建深度卷积神经网络将文本语义信息迁移到图像哈希码的学习中;最后在统一框架中训练得到图像的哈希码和哈希函数,在低维汉明空间中完成对大规模Web图像数据的有效检索。通过在Wiki和MIR Flickr这两个公开的Web图像集上进行实验,证明了该方法相比其他先进的哈希算法的优越性。  相似文献   

9.
现有基于内容的语音检索中深度哈希方法对监督信息利用不足,生成的哈希码是次优的,而且检索精度和检索效率不高。针对以上问题,提出一种用于语音检索的三联体深度哈希方法。首先,将语谱图图像特征以三联体方式作为模型的输入来提取语音特征的有效信息;然后,提出注意力机制-残差网络(ARN)模型,即在残差网络(ResNet)的基础上嵌入空间注意力力机制,并通过聚集整个语谱图能量显著区域信息来提高显著区域表示;最后,引入新三联体交叉熵损失,将语谱图图像特征之间的分类信息和相似性映射到所学习的哈希码中,可在模型训练的同时实现最大的类可分性和最大的哈希码可分性。实验结果表明,所提方法生成的高效紧凑的二值哈希码使语音检索的查全率、查准率、F1分数均超过了98.5%。与单标签检索等方法相比,使用Log-Mel谱图作为特征的所提方法的平均运行时间缩短了19.0%~55.5%,能在减小计算量的同时,显著提高检索效率和精度。  相似文献   

10.
基于全局语义交互的粗粒度注意力机制不能有效利用各模态间的语义关联提取到模态信息中的关键部分,从而影响分类结果。针对这个问题提出了一个模态信息交互模型MII(modal information interaction),通过细粒度注意力机制提取模态的局部语义关联特征并用于情感分类。首先,模态内信息交互模块用于构建模态内的联系并生成模态内交互特征,随后模态间信息交互模块利用图像(文本)的模态内交互特征生成门控向量来关注文本(图像)中相关联的部分,从而得到模态间的交互特征。考虑到特征中存在的冗余信息,模型加入了自适应特征融合模块,从全局特征层面对特征进行选择,增强了包含情感信息的关键特征的表达能力,弱化了冗余信息对分类结果的影响。在MVSA-Single和MVSA-Multi两个公开数据集上的实验结果表明,该模型优于一系列基线模型。  相似文献   

11.
哈希表示能够节省存储空间,加快检索速度,所以基于哈希表示的跨模态检索已经引起广泛关注。多数有监督的跨模态哈希方法以一种回归或图约束的方式使哈希编码具有语义鉴别性,然而这种方式忽略了哈希函数的语义鉴别性,从而导致新样本不能获得语义保持的哈希编码,限制了检索准确率的提升。为了同时学习具有语义保持的哈希编码和哈希函数,提出一种语义保持哈希方法用于跨模态检索。通过引入两个不同模态的哈希函数,将不同模态空间的样本映射到共同的汉明空间。为使哈希编码和哈希函数均具有较好的语义鉴别性,引入了语义结构图,并结合局部结构保持的思想,将哈希编码和哈希函数的学习融合到同一个框架,使两者同时优化。三个多模态数据集上的大量实验证明了该方法在跨模态检索任务的有效性和优越性。  相似文献   

12.
针对现有的哈希图像检索方法表达能力较弱、训练速度慢、检索精度低,难以适应大规模图像检索的问题,提出了一种基于深度残差网络的迭代量化哈希图像检索方法(DRITQH)。首先,使用深度残差网络对图像数据进行多次非线性变换,从而提取图像数据的特征,并获得具有语义特征的高维特征向量;然后,使用主成分分析(PCA)对高维图像特征进行降维,同时运用迭代量化对生成的特征向量进行二值化处理,更新旋转矩阵,将数据映射到零中心二进制超立方体,从而最小化量化误差并得到最佳的投影矩阵;最后,进行哈希学习,以得到最优的二进制哈希码在汉明空间中进行图像检索。实验结果表明,DRITQH在NUS-WIDE数据集上,对4种哈希码的检索精度分别为0.789、0.831、0.838和0.846,与改进深度哈希网络(IDHN)相比分别提升了0.5、3.8、3.7和4.2个百分点,平均编码时间小了1 717 μs。DRITQH在大规模图像检索时减少了量化误差带来的影响,提高了训练速度,实现了更高的检索性能。  相似文献   

13.
目的 为提取可充分表达图像语义信息的图像特征,减少哈希检索中的投影误差,并生成更紧致的二值哈希码,提出一种基于密集网络和改进的监督核哈希方法。方法 用训练优化好的密集网络提取图像的高层语义特征;先对提取到的图像特征进行核主成分分析投影,充分挖掘图像特征中隐含的非线性信息,以减少投影误差,再利用监督核哈希方法对图像特征进行监督学习,将特征映射到汉明空间,生成更紧致的二值哈希码。结果 为验证提出方法的有效性、可拓展性以及高效性,在Paris6K和LUNA16(lung nodule analysis 16)数据集上与其他6种常用哈希方法相比,所提方法在不同哈希码长下的平均检索精度均较高,且在哈希码长为64 bit时,平均检索精度达到最高,分别为89.2%和92.9%;与基于卷积神经网络的哈希算法(convolution neural network Hashing,CNNH)方法相比,所提方法的时间复杂度有所降低。结论 提出一种基于密集网络和改进的监督核哈希方法,提高了图像特征的表达能力和投影精度,具有较好的检索性能和较低的时间复杂度;且所提方法的可拓展性也较好,不仅能够有效应用到彩色图像检索领域,也可以应用在医学灰度图像检索领域。  相似文献   

14.
刘长红  曾胜  张斌  陈勇 《计算机应用》2022,42(10):3018-3024
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。  相似文献   

15.
刘芳名  张鸿 《计算机应用》2021,41(8):2187-2192
针对大多数跨模态哈希方法采用二进制矩阵表示相关程度,因此无法捕获多标签数据之间更深层的语义信息,以及它们忽略了保持语义结构和数据特征的判别性等问题,提出了一种基于多级语义的判别式跨模态哈希检索算法——ML-SDH。所提算法使用多级语义相似度矩阵发现跨模态数据中的深层关联信息,同时利用平等指导跨模态哈希表示在语义结构和判别分类中的关联关系,不仅实现了对蕴含高级语义信息的多标签数据进行编码的目的,而且构建的保留多级语义的结构能够确保最终学习的哈希码在保持语义相似度的同时又具有判别性。在NUS-WIDE数据集上,哈希码长度为32 bit时,所提算法在两个检索任务中的平均准确率(mAP)比深度跨模态哈希(DCMH)、成对关联哈希(PRDH)、平等指导判别式哈希(EGDH)算法分别高出了19.48,14.50,1.95个百分点和16.32,11.82,2.08个百分点。  相似文献   

16.
17.
孟杰  王莉  杨延杰  廉飚 《计算机应用》2022,42(2):419-425
针对虚假信息检测中图片特征提取不充分,以及忽视了单模内关系以及单模与多模之间交互作用的问题,提出一种基于文本和图片信息的多模态深度融合(MMDF)模型.首先,用双向门控循环单元(Bi-GRU)提取文本的丰富语义特征,用多分支卷积?循环神经网络(CNN-RNN)提取图片的多层次特征;然后,建立模间和模内的注意力机制以捕获...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号