首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
文中提出一种融合深度典型相关分析和对抗学习的跨模态检索方法(DCCA-ACMR),该方法提高了无标签样本的利用率,能够学习到更有力的特征投影模型,进而提升了跨模态检索准确率.具体而言,在DCGAN框架下:1)在图像与文本两个单模态的表示层间增加深度典型相关分析约束,构建图文特征投影模型,充分挖掘样本对的语义关联性;2)以图文特征投影模型作为生成器,以模态特征分类模型作为判别器共同构成图文跨模态检索模型;3)利用有标签样本和无标签样本,在生成器和判别器的相互对抗中学习到样本的公共子空间表示.在Wikipedia和NUSWIDE-10k两个公开数据集上,采用平均准确率均值(mAP)作为评价指标对所提方法进行验证.图像检索文本和文本检索图像的平均mAP值在两个数据集上分别为0.556和0.563.实验结果表明,DCCA-ACMR优于现有的代表性方法.  相似文献   

2.
如何有效挖掘单模态表征并实现多模态信息的充分融合是多模态情感分析研究的重点之一。针对多模态情感分析中的模态间噪声和多模态特征融合不充分等问题,提出一种基于跨模态门控机制和改进融合方法的多模态情感分析模型。首先,利用跨模态门控机制去除模态间噪声,提取互补信息以增强模态表示。然后,利用权重和相似约束分别关注不同模态情感贡献的差异性和情感表达的一致性。最后,结合模态的多层次表示获得情感分析的结果。在三个公开数据集上的实验结果表明,所提模型是有效的,相比已有一些模型取得了更好的性能。  相似文献   

3.
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。  相似文献   

4.
以往的情感分类大多集中在单模态上,然而多模态的情感信息之间往往具有互补性,针对目前使用单模态做情感分类不能全面捕捉情感语义且存在忽视具有重要特征的情感信息等问题,提出一种基于注意力机制的TAI-CNN图文跨模态情感分类方法.构建TCNN文本情感分类模型和ICNN图像情感分类模型,采用最大值图文决策级融合方法来构建图文跨模态情感分类模型.实验证明,图文跨模态情感分类方法能够充分利用图像和文本的情感互补信息,提高分类的准确性,且注意力机制的引入能够更好地获得情感特征.  相似文献   

5.
随着深度神经网络的不断发展,跨模态检索模型的构建也随之取得了长足的进步。以图卷积网络(GCN)为基础的跨模态检索方法可以较好地捕获数据的语义相关性,因此越来越受到人们的关注。但是,目前大部分研究多将标签之间和样本之间的相关性融入到跨模态表示当中,并没有考虑到标签集合之间的相关性对于跨模态检索模型性能的影响。在多标签场景下,标签集合之间的多标签相关性可以有效地描述对应样本之间的语义关系,因此充分发现多标签相关性并将其融入到跨模态表示中,对于提高跨模态检索模型的性能有着重要的意义。提出了一种基于二重语义相关性图卷积网络(dual semantic correlation graph convolutional networks, DSCGCN)的跨模态检索方法,该方法利用GCN自适应地发现标签之间和多标签之间的语义相关性,并将此二重语义相关性融入到样本公共表示中。此外,还提出了一种多标签相似性损失,用于使生成的样本公共表示相似性更接近于语义相似性。通过在NUS-WIDE、MIRFlickr-25K和MS-COCO三个数据集上的实验可以发现,由于引入了多标签语义相关性,DSCGCN可以获得令...  相似文献   

6.
目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。  相似文献   

7.
社交网络的发展为情感分析研究提供了大量的多模态数据。结合多模态内容进行情感分类可以利用模态间数据的关联信息,从而避免单一模态对总体情感把握不全面的情况。使用简单的共享表征学习方法无法充分挖掘模态间的互补特征,因此提出多模态双向注意力融合(Multimodal Bidirectional Attention Hybrid, MBAH)模型,在深度模型提取的图像和文本特征基础上,利用双向注意力机制在一个模态下引入另一个模态信息,将该模态的底层特征与另一模态语义特征通过注意力计算学习模态间的关联信息,然后联结两种模态的高层特征形成跨模态共享表征并输入多层感知器得到分类结果。此外MBAH模型应用后期融合技术结合图文单模态自注意力模型搜寻最优决策权值,形成最终决策。实验结果表明,MBAH模型情感分类结果相较于其他方法具有明显的提升。  相似文献   

8.
跨模态检索技术是一项近年来的研究热点.多模态数据具有异质性,而不同形式的信息之间又有着相似性.传统的单模态方法只能以一种方式重构原始数据,并未考虑到不同数据之间的语义相似性,不能进行有效的检索.因此,文中建立了一个跨模态嵌入共识自动编码器(Cross-Modal Semantic Autoencoder with Embedding Consensus,ECA-CMSA),将原始数据映射到低维共识空间以保留语义信息,学习出对应的语义代码向量,并引入参数来实现去噪.然后,考虑到各模态之间的相似性,采用自动编码器将特征投影关联到语义代码向量.此外,对低维矩阵进行正则化稀疏约束,以平衡重构误差.在4个多模态数据集上验证所提方法的性能,实验结果证明其查询结果有所提升,实现了有效的跨模态检索.进一步,ECA-CMSA还可以应用于与计算机和网络有关的领域,如深度学习和子空间学习.该模型突破了传统方法中的障碍,创新地使用深度学习方法将多模态数据转换为抽象的表达,使其可以获得更好的准确度和识别结果.  相似文献   

9.
跨模态检索技术是一项近年来的研究热点.多模态数据具有异质性,而不同形式的信息之间又有着相似性.传统的单模态方法只能以一种方式重构原始数据,并未考虑到不同数据之间的语义相似性,不能进行有效的检索.因此,文中建立了一个跨模态嵌入共识自动编码器(Cross-Modal Semantic Autoencoder with Embedding Consensus,ECA-CMSA),将原始数据映射到低维共识空间以保留语义信息,学习出对应的语义代码向量,并引入参数来实现去噪.然后,考虑到各模态之间的相似性,采用自动编码器将特征投影关联到语义代码向量.此外,对低维矩阵进行正则化稀疏约束,以平衡重构误差.在4个多模态数据集上验证所提方法的性能,实验结果证明其查询结果有所提升,实现了有效的跨模态检索.进一步,ECA-CMSA还可以应用于与计算机和网络有关的领域,如深度学习和子空间学习.该模型突破了传统方法中的障碍,创新地使用深度学习方法将多模态数据转换为抽象的表达,使其可以获得更好的准确度和识别结果.  相似文献   

10.
随着图像、文本、声音、视频等多模态网络数据的急剧增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,由于其存在异构性差异,在不同的数据模态之间寻找内容相似性仍然具有挑战性。现有方法大都将异构数据通过映射矩阵或深度模型投射到公共子空间,来挖掘成对的关联关系,即图像和文本的全局信息对应关系,而忽略了数据内局部的上下文信息和数据间细粒度的交互信息,无法充分挖掘跨模态关联。为此,文中提出文本-图像协同注意力网络模型(CoAN),通过选择性地关注多模态数据的关键信息部分来增强内容相似性的度量。CoAN利用预训练的VGGNet模型和循环神经网络深层次地提取图像和文本的细粒度特征,利用文本-视觉注意力机制捕捉语言和视觉之间的细微交互作用;同时,该模型分别学习文本和图像的哈希表示,利用哈希方法的低存储特性和计算的高效性来提高检索速度。在实验得出,在两个广泛使用的跨模态数据集上,CoAN的平均准确率均值(mAP)超过所有对比方法,文本检索图像和图像检索文本的mAP值分别达到0.807和0.769。实验结果说明,CoAN有助于检测多模态数据的关键信息区域和数据间细粒度的交互信息,充分挖掘跨模态数据的内容相似性,提高检索精度。  相似文献   

11.
随着越来越多多模态数据的出现,跨模态检索引起了广泛的关注.跨模态检索面临一大挑战为模态鸿沟,为了解决数据的异构性问题,公共子空间学习的方法被提出.然而,大部分方法仅仅是单独考虑了样本之间的相关联信息或不相关信息,而没有同时考虑样本间的相关信息和不相关信息.除此之外,大部分方法对于样本之间相似度的比较,使用的是基于文档对...  相似文献   

12.
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法.  相似文献   

13.
现有跨模态检索方法主要使用某一指标约束得到一个子空间,检索结果往往有差异.为了提高公共子空间的鲁棒性,文中提出基于关联约束的对抗跨模态检索方法.对抗约束通过混淆判别器使其无法分辨子空间特征来自哪个模态,从而提升不同模态特征的一致性.关联约束用于增强投影子空间关联程度.三元组约束同时考虑不同模态同一语义、相同模态不同语义...  相似文献   

14.

A great many of approaches have been developed for cross-modal retrieval, among which subspace learning based ones dominate the landscape. Concerning whether using the semantic label information or not, subspace learning based approaches can be categorized into two paradigms, unsupervised and supervised. However, for multi-label cross-modal retrieval, supervised approaches just simply exploit multi-label information towards a discriminative subspace, without considering the correlations between multiple labels shared by multi-modalities, which often leads to an unsatisfactory retrieval performance. To address this issue, in this paper we propose a general framework, which jointly incorporates semantic correlations into subspace learning for multi-label cross-modal retrieval. By introducing the HSIC-based regularization term, the correlation information among multiple labels can be not only leveraged but also the consistency between the modality similarity from each modality is well preserved. Besides, based on the semantic-consistency projection, the semantic gap between the low-level feature space of each modality and the shared high-level semantic space can be balanced by a mid-level consistent one, where multi-label cross-modal retrieval can be performed effectively and efficiently. To solve the optimization problem, an effective iterative algorithm is designed, along with its convergence analysis theoretically and experimentally. Experimental results on real-world datasets have shown the superiority of the proposed method over several existing cross-modal subspace learning methods.

  相似文献   

15.
跨模态哈希通过将不同模态的数据映射为同一空间中更紧凑的哈希码,可以大大提升跨模态检索的效率.然而现有跨模态哈希方法通常使用二元相似性矩阵,不能准确描述样本间的语义相似关系,并且存在平方复杂度问题.为了更好地挖掘数据间的语义相似关系,提出了一个基于标记增强的离散跨模态哈希方法.首先借助迁移学习的先验知识生成样本的标记分布,然后通过标记分布构建描述度更强的语义相似性矩阵,再通过一个高效的离散优化算法生成哈希码,避免了量化误差问题.最后,在两个基准数据集上的实验结果验证了所提方法在跨模态检索任务上的有效性.  相似文献   

16.
已有的无监督跨模态哈希(UCMH)方法主要关注构造相似矩阵和约束公共表征空间的结构,忽略了2个重要问题:一是它们为不同模态的数据提取独立的表征用以检索,没有考虑不同模态之间的信息互补;二是预提取特征的结构信息不完全适用于跨模态检索任务,可能会造成一些错误信息的迁移。针对第一个问题,提出一种多模态表征融合结构,通过对不同模态的嵌入特征进行融合,从而有效地综合来自不同模态的信息,提高哈希码的表达能力,同时引入跨模态生成机制,解决检索数据模态缺失的问题;针对第二个问题,提出一种相似矩阵动态调整策略,在训练过程中用学到的模态嵌入自适应地逐步优化相似矩阵,减轻预提取特征对原始数据集的偏见,使其更适应跨模态检索,并有效避免过拟合问题。基于常用数据集Flickr25k和NUS-WIDE进行实验,结果表明,通过该方法构建的模型在Flickr25k数据集上3种哈希位长检索的平均精度均值较DGCPN模型分别提高1.43%、1.82%和1.52%,在NUS-WIDE数据集上分别提高3.72%、3.77%和1.99%,验证了所提方法的有效性。  相似文献   

17.
为了解决跨模态检索算法检索准确率较低、训练时间较长等问题,文中提出联合哈希特征和分类器学习的跨模态检索算法(HFCL).采用统一的哈希码描述语义相同的不同模态数据.在训练阶段,利用标签信息学习具有鉴别性的哈希码.第二阶段基于生成的鉴别性哈希码,采用核逻辑回归学习各模态的哈希函数.在测试阶段,给定任意一个模态查询样本,利用学习的哈希函数生成哈希特征,从数据库中检索与之语义相关的另一模态数据.在3个公开数据集上的实验验证HFCL的有效性.  相似文献   

18.
近年来,各种类型的媒体数据,如音频、文本、图像和视频,在互联网上呈现爆发式增长,不同类型的数据通常用于描述同一事件或主题。跨模态检索提供了一些有效的方法,可以为任何模态的给定查询搜索不同模态的语义相关结果,使用户能够获得有关事件/主题的更多信息,从而达到以一种模态数据检索另外一种模态数据的效果。随着数据检索需求以及各种新技术的发展,单一模态检索难以满足用户需求,研究者提出许多跨模态检索的技术来解决这个问题。梳理近期跨模态检索领域研究者的研究成果,简要分析传统的跨模态检索方法,着重介绍近五年研究者提出跨模态检索方法,并对其性能表现进行对比;总结现阶段跨模态检索研究过程中面临的问题,并对后续发展做出展望。  相似文献   

19.
针对跨模态哈希检索方法中存在标签语义利用不充分,从而导致哈希码判别能力弱、检索精度低的问题,提出了一种语义相似性保持的判别式跨模态哈希方法.该方法将异构模态的特征数据投影到一个公共子空间,并结合多标签核判别分析方法将标签语义中的判别信息和潜在关联嵌入到公共子空间中;通过最小化公共子空间与哈希码之间的量化误差提高哈希码的判别能力;此外,利用标签构建语义相似性矩阵,并将语义相似性保留到所学的哈希码中,进一步提升哈希码的检索精度.在LabelMe、MIRFlickr-25k、NUS-WIDE三个基准数据集上进行了大量实验,其结果验证了该方法的有效性.  相似文献   

20.
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号