首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
跨模态哈希检索以其较高的检索效率和较低的存储成本,在跨模态检索领域受到了广泛的关注.现有的跨模态哈希大多直接从多模态数据中学习哈希码,不能充分利用数据的语义信息,因此无法保证数据低维特征在模态间的分布一致性,解决这个问题的关键之一是要准确地度量多模态数据之间的相似度.为此,提出一种基于对抗投影学习的哈希(adversa...  相似文献   

2.
哈希检索具有存储消耗低、查询速度快等优点,被广泛应用于跨模态检索研究,其中基于深度学习的跨模态哈希方法是热点研究问题.大多数深度哈希方法通常在多模态数据的特征关联性学习过程中忽略了数据内容的潜在相关性和语义判别性,从而导致哈希码的关联性不强,容易造成原始数据特征和神经网络特征的不兼容问题.针对以上问题,本文提出一种图像...  相似文献   

3.
跨模态检索可以通过一种模态检索出其他模态的信息,已经成为大数据时代的研究热点。研究者基于实值表示和二进制表示两种方法来减小不同模态信息的语义差距并进行有效的相似度对比,但仍会有检索效率低或信息丢失的问题。目前,如何进一步提高检索效率和信息利用率是跨模态检索研究面临的关键挑战。介绍了跨模态检索研究中基于实值表示和二进制表示两种方法的发展现状;分析对比了包含两种表示技术下以建模技术和相似性对比为主线的五种跨模态检索方法:子空间学习、主题统计模型学习、深度学习、传统哈希和深度哈希;对最新的多模态数据集进行总结,为相关的研究和工程人员提供有价值的参考资料;分析了跨模态检索面临的挑战并指出了该领域未来研究方向。  相似文献   

4.
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。  相似文献   

5.
由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。  相似文献   

6.
面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能,而模态的普遍性和深度学习的热度促进了多模态融合技术的发展。在多模态融合技术发展前期,以提升深度学习模型分类与回归性能为出发点,阐述多模态融合架构、融合方法和对齐技术。重点分析联合、协同、编解码器3种融合架构在深度学习中的应用情况与优缺点,以及多核学习、图像模型和神经网络等具体融合方法与对齐技术,在此基础上归纳多模态融合研究的常用公开数据集,并对跨模态转移学习、模态语义冲突消解、多模态组合评价等下一步的研究方向进行展望。  相似文献   

7.
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法.  相似文献   

8.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。  相似文献   

9.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,...  相似文献   

10.
跨模态检索技术是一项近年来的研究热点.多模态数据具有异质性,而不同形式的信息之间又有着相似性.传统的单模态方法只能以一种方式重构原始数据,并未考虑到不同数据之间的语义相似性,不能进行有效的检索.因此,文中建立了一个跨模态嵌入共识自动编码器(Cross-Modal Semantic Autoencoder with Embedding Consensus,ECA-CMSA),将原始数据映射到低维共识空间以保留语义信息,学习出对应的语义代码向量,并引入参数来实现去噪.然后,考虑到各模态之间的相似性,采用自动编码器将特征投影关联到语义代码向量.此外,对低维矩阵进行正则化稀疏约束,以平衡重构误差.在4个多模态数据集上验证所提方法的性能,实验结果证明其查询结果有所提升,实现了有效的跨模态检索.进一步,ECA-CMSA还可以应用于与计算机和网络有关的领域,如深度学习和子空间学习.该模型突破了传统方法中的障碍,创新地使用深度学习方法将多模态数据转换为抽象的表达,使其可以获得更好的准确度和识别结果.  相似文献   

11.
图文检索在工业中的用途和作用是多方面的,可以帮助提高研发和生产效率,促进科技创新,提高产品的质量和竞争力;目前,图文检索模型的重点是提高检索的精度;随着技术和数据的快速发展,深度学习和大模型技术的不断应用,图文检索的速度问题逐渐凸显,为解决当前图文检索速度受限、计算量大的问题,提出了一种基于层次聚类的图文检索模型;该方法选择了检索效果明显的跨模态哈希方法,并运用深度聚类算法对待检索的数据进行分类,从而缩小检索范围,提高了检索速度;实验结果表明,基于层次聚类的图文检索模型在保持检索精度的同时,显著提高了检索速度,使得工程人员能够更快地获取到满意的检索结果。  相似文献   

12.
随着不同模态的数据在互联网中的飞速增长,跨模态检索逐渐成为了当今的一个热点研究问题.哈希检索因其快速、有效的特点,成为了大规模数据跨模态检索的主要方法之一.在众多图像-文本的深度跨模态检索算法中,设计的准则多为尽量使得图像的深度特征与对应文本的深度特征相似.但是此类方法将图像中的背景信息融入到特征学习中,降低了检索性能...  相似文献   

13.
深度学习的快速发展和关联学习的深度研究,使得跨模态检索的性能有了很大提升.跨模态检索研究面临的挑战是:不同模态的数据在高层语义上具有关联关系,但在底层特征上存在异构鸿沟.现有方法主要通过单个相关性约束将不同模态的特征映射到具有一定相关性的特征空间中来解决底层特征上的异构鸿沟问题.然而,表征学习表明,不同层次的特征在帮助模型最终性能的提升上都会起作用.所以,现有方法学习到的单一特征空间的关联性是弱的,即该特征空间可能不是最优的检索空间.为解决该问题,提出了基于关联特征传播的跨模态检索模型,其基本思想是强化深度网络各层之间的关联性,即前一层具有一定关联的特征经过非线性变化传到后一层,有利于找到使2种模态关联性更强的特征空间.通过在Wikipedia,Pascal数据集上的大量实验验证得到,该方法提升了平均精度均值.  相似文献   

14.
针对现有跨模态检索方法不能充分挖掘模态之间的相似性信息的问题,提出一种基于语义融合和多重相似性学习(CFMSL)方法。首先,在特征提取过程中融合不同模态的语义信息,加强不同模态特征间的交互,使得模型能够充分挖掘模态间的关联信息。然后,利用生成器将单模态特征和融合模态特征映射到公共子空间中,通过最大化锚点与正例样本之间的相似性和最小化锚点与负例样本间的相似性得到具有判别性的特征进行模态对齐。最后,基于决策融合方式对相似性列表进行重排序,使得最终排序结果同时考虑单模态特征和融合模态特征,提高检索性能。通过在Pascal Sentences、Wikipedia、NUS-WIDE-10K这3个广泛使用的图文数据集上进行实验,实验结果表明CFMSL模型能够有效提高跨模态检索任务的性能。  相似文献   

15.
胡鹏  彭玺  彭德中 《软件学报》2024,35(8):3739-3751
基于图的无监督跨模态哈希学习具有存储空间小、检索效率高等优点, 受到学术界和工业界的广泛关注, 已成为跨模态检索不可或缺的工具之一. 然而, 图构造的高计算复杂度阻碍其应用于大规模多模态应用. 主要尝试解决基于图的无监督跨模态哈希学习面临的两个重要挑战: 1)在无监督跨模态哈希学习中如何高效地构建图? 2)如何解决跨模态哈希学习中的离散值优化问题? 针对这两个问题, 分别提出基于锚点图的跨模态学习和可微分哈希层. 具体地, 首先从训练集中随机地选择若干图文对作为锚点集, 利用该锚点集作为中介计算每批数据的图矩阵, 以该图矩阵指导跨模态哈希学习, 从而能极大地降低空间与时间开销; 其次, 提出的可微分哈希层可在网络前向传播时直接由二值编码计算, 在反向传播时亦可产生梯度进行网络更新, 而无需连续值松弛, 从而具有更好的哈希编码效果; 最后, 引入跨模态排序损失, 使得在训练过程中考虑排序结果, 从而提升跨模态检索正确率. 通过在3个通用数据集上与10种跨模态哈希算法进行对比, 验证了提出算法的有效性.  相似文献   

16.
近年来,各种类型的媒体数据,如音频、文本、图像和视频,在互联网上呈现爆发式增长,不同类型的数据通常用于描述同一事件或主题。跨模态检索提供了一些有效的方法,可以为任何模态的给定查询搜索不同模态的语义相关结果,使用户能够获得有关事件/主题的更多信息,从而达到以一种模态数据检索另外一种模态数据的效果。随着数据检索需求以及各种新技术的发展,单一模态检索难以满足用户需求,研究者提出许多跨模态检索的技术来解决这个问题。梳理近期跨模态检索领域研究者的研究成果,简要分析传统的跨模态检索方法,着重介绍近五年研究者提出跨模态检索方法,并对其性能表现进行对比;总结现阶段跨模态检索研究过程中面临的问题,并对后续发展做出展望。  相似文献   

17.
行人再识别技术综述   总被引:20,自引:7,他引:13  
李幼蛟  卓力  张菁  李嘉锋  张辉 《自动化学报》2018,44(9):1554-1568
行人再识别指的是判断不同摄像头下出现的行人是否属于同一行人, 可以看作是图像检索的子问题, 可以广泛应用于智能视频监控、安保、刑侦等领域.由于行人图像的分辨率变化大、拍摄角度不统一、光照条件差、环境变化大、行人姿态不断变化等原因, 使得行人再识别成为目前计算机视觉领域一个既具有研究价值又极具挑战性的研究热点和难点问题.早期的行人再识别方法大多基于人工设计特征, 在小规模数据集上开展研究.近年来, 大规模行人再识别数据集不断推出, 以及深度学习技术的迅猛发展, 为行人再识别技术的发展带来了新的契机.本文对行人再识别的发展历史、研究现状以及典型方法进行梳理和总结.首先阐述了行人再识别的基本研究框架, 然后分别针对行人再识别的两个关键技术(特征表达和相似性度量), 进行了归纳总结, 重点介绍了目前发展迅猛的深度学习技术在行人再识别中的应用.另外, 本文对行人再识别中代表性的数据集以及在各个数据集上可以取得优异性能的方法进行了分析和比较.最后对行人再识别技术的未来发展趋势进行了展望.  相似文献   

18.
实体分辨广泛地存在于数据质量控制、信息检索、数据集成等数据任务中.传统的实体分辨主要面向关系型数据,而随着大数据技术的发展,文本、图像等模态不同的数据大量涌现催生了跨模态数据应用需求,将跨模态数据实体分辨提升为大数据处理和分析的基础问题之一.对跨模态实体分辨问题的研究进展进行回顾,首先介绍问题的定义、评价指标;然后,以模态内关系的保持和模态间关系的建立为主线,对现有研究进行总结和梳理;并且,通过在多个公开数据集上对常用方法进行测试,对出现差异的原因和进行分析;最后,总结当前研究仍然存在的问题,并依据这些问题给出未来可能的研究方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号