首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法.  相似文献   

2.
跨模态哈希检索以其较高的检索效率和较低的存储成本,在跨模态检索领域受到了广泛的关注.现有的跨模态哈希大多直接从多模态数据中学习哈希码,不能充分利用数据的语义信息,因此无法保证数据低维特征在模态间的分布一致性,解决这个问题的关键之一是要准确地度量多模态数据之间的相似度.为此,提出一种基于对抗投影学习的哈希(adversarial projection learning based Hashing for cross-modal retrieval,APLH)方法用于跨模态检索.利用对抗训练学习来自不同模态的低维特征,并保证低维特征在模态间的分布一致性.在此基础上,利用跨模态投影匹配约束(cross-modal projection matching,CMPM),最小化特征投影匹配分布和标签投影匹配分布之间的KL(Kullback-Leibler)散度,利用标签信息使数据低维特征之间的相似度结构与语义空间中的相似度结构趋于一致.此外,在哈希码学习阶段,引入加权余弦三元组损失进一步利用数据的语义信息;且为减小哈希码的量化损失,使用离散优化的方法优化哈希函数.在3个跨模态数据集MIRFlickr25K,NUS-WIDE,Wikipedia上,以不同码位计算mAP,且所提方法的mAP值均优于其他算法,验证了其在跨模态哈希检索上的优越性、鲁棒性以及CMPM的有效性.  相似文献   

3.
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。  相似文献   

4.
随着互联网技术的迅速发展,文本和图像等各种类型的数据在网络上呈现爆发式增长,如何从这些多源异构且语义关联的多模态数据中获取有价值的信息则尤为重要。跨模态检索能够突破模态的限制,跨越不同模态的数据进行信息检索,满足用户获取有关事件信息的需求。近年来,跨模态检索已经成为了学术界和工业界研究的热点问题。本文聚焦于图文跨模态检索任务,首先介绍图文跨模态检索的定义,并分析说明了当前该任务面临的挑战。其次,对现有的研究方法进行归纳总结,将其分为3大类:(1)传统方法;(2)基于深度学习的方法;(3)基于哈希表示的方法。然后,详细介绍了图文跨模态检索的常用数据集,并对常用数据集上已有算法进行详细分析与比较。最后,对图文跨模态检索任务的未来发展方向进行展望。  相似文献   

5.
针对现有跨模态检索方法不能充分挖掘模态之间的相似性信息的问题,提出一种基于语义融合和多重相似性学习(CFMSL)方法。首先,在特征提取过程中融合不同模态的语义信息,加强不同模态特征间的交互,使得模型能够充分挖掘模态间的关联信息。然后,利用生成器将单模态特征和融合模态特征映射到公共子空间中,通过最大化锚点与正例样本之间的相似性和最小化锚点与负例样本间的相似性得到具有判别性的特征进行模态对齐。最后,基于决策融合方式对相似性列表进行重排序,使得最终排序结果同时考虑单模态特征和融合模态特征,提高检索性能。通过在Pascal Sentences、Wikipedia、NUS-WIDE-10K这3个广泛使用的图文数据集上进行实验,实验结果表明CFMSL模型能够有效提高跨模态检索任务的性能。  相似文献   

6.
由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。  相似文献   

7.
多媒体数据持续呈现爆发式增长并显现出异源异构的特性,因此跨模态学习领域研究逐渐引起学术和工业界的关注。跨模态表征与生成是跨模态学习的两大核心基础问题。跨模态表征旨在利用多种模态之间的互补性剔除模态之间的冗余,从而获得更为有效的特征表示;跨模态生成则是基于模态之间的语义一致性,实现不同模态数据形式上的相互转换,有助于提高不同模态间的迁移能力。本文系统地分析了国际与国内近年来跨模态表征与生成领域的重要研究进展,包括传统跨模态表征学习、多模态大模型表示学习、图像到文本的跨模态转换和跨模态图像生成。其中,传统跨模态表征学习探讨了跨模态统一表征和跨模态协同表征,多模态大模型表示学习探讨了基于Transformer的模型研究,图像到文本的跨模态转换探讨了图像视频的语义描述、视频字幕语义分析和视觉问答等领域的发展,跨模态图像生成从不同模态信息的跨模态联合表示方法、图像的跨模态生成技术和基于预训练的特定域图像生成阐述了跨模态生成方面的进展。本文详细综述了上述各个子领域研究的挑战性,对比了国内外研究方面的进展情况,梳理了发展脉络和学术研究的前沿动态。最后,根据上述分析展望了跨模态表征与生成的发展趋势和突破口。  相似文献   

8.
针对现有的基于公共子空间的跨模态检索方法对不同检索任务的差异性、检索模态的语义一致性考虑不足的问题,提出一种联合线性判别和图正则的任务导向型跨模态检索方法.该方法在一个联合学习框架中为不同的检索任务构建不同的映射机制,将不同模态的数据映射到公共子空间中以进行相似性度量;学习过程中结合相关性分析和单模态语义回归,保留成对...  相似文献   

9.
张成  万源  强浩鹏 《计算机应用》2021,41(9):2523-2531
跨模态哈希因其低存储花费和高检索效率得到了广泛的关注。现有的大部分跨模态哈希方法需要额外的手工标签来提供实例间的关联信息,然而,预训练好的深度无监督跨模态哈希方法学习到的深度特征同样能提供相似信息;且哈希码学习过程中放松了离散约束,造成较大的量化损失。针对以上两个问题,提出基于知识蒸馏的深度无监督离散跨模态哈希(DUDCH)方法。首先,结合知识蒸馏中知识迁移的思想,利用预训练无监督老师模型潜藏的关联信息以重构对称相似度矩阵,从而代替手工标签帮助有监督学生模型训练;其次,采用离散循环坐标下降法(DCC)迭代更新离散哈希码,以此减少神经网络学习到的实值哈希码与离散哈希码间的量化损失;最后,采用端到端神经网络作为老师模型,构建非对称神经网络作为学生模型,从而降低组合模型的时间复杂度。在两个常用的基准数据集MIRFLICKR-25K和NUS-WIDE上的实验结果表明,该方法相较于深度联合语义重构哈希(DJSRH)方法在图像检索文本/文本检索图像两个任务上的平均精度均值(mAP)分别平均提升了2.83个百分点/0.70个百分点和6.53个百分点/3.95个百分点,充分体现了其在大规模跨模态数据检索中的有效性。  相似文献   

10.
深入分析了跨媒体智能关联分析与语义理解理论技术的最新研究进展,包括多模态数据的统一表达、知识引导的数据融合、跨媒体关联分析、基于知识图谱的跨媒体表征技术以及面向多模态的智能应用.其中,多模态数据的统一表达是对跨媒体信息进行分析推理的先决条件,利用多模态信息间的语义一致性剔除冗余信息,通过跨模态相互转化来实现跨媒体信息统一表达,学习更全面的特征表示;跨媒体关联分析立足于图像语言、视频语言以及音视频语言的跨模态关联分析与理解技术,旨在弥合视觉、听觉以及语言之间的语义鸿沟,充分建立不同模态间的语义关联;基于知识图谱的跨媒体表征技术通过引入跨媒体的知识图谱,从跨媒体知识图谱构建、跨媒体知识图谱嵌入以及跨媒体知识推理3个方面展开研究,增强跨媒体数据表征的可靠性,并提升后续推理任务的分析效率和准确性;随着跨模态分析技术的快速发展,面向多模态的智能应用得到了更多的技术支撑,依据智能应用所需要的领域知识,选取了多模态视觉问答,多模式视频摘要、多模式视觉模式挖掘、多模式推荐、跨模态智能推理和跨模态医学图像预测等跨模态应用实例,梳理了其在多模态数据融合以及跨媒体分析推理方面的研究进展.  相似文献   

11.
针对现有胸部X线影像和诊断报告跨模态方法重点聚焦全局信息对齐,忽视影像和诊断报告间的细粒度语义关联,导致检索精度低、匹配度差的问题,提出全局和局部联合对齐的胸部X线影像和诊断报告双塔跨模态检索方法(CDTCR)。具体来说,针对细粒度语义表征,提出由残差网络组成的影像编码器学习影像的细粒度特征和由Transformer构成的BERT模型学习诊断报告的细粒度语义特征;针对细粒度语义关联问题,设计影像对句子和区域对词组两个不同粒度的模态间信息对齐策略,解决了不同模态间细粒度语义关联不足的问题。大型医学数据集MIMIC-CXR上的实验结果表明,CDTCR比现有的跨模态检索方法,检索精度更高、可解释性更强。  相似文献   

12.
跨模态哈希通过将不同模态的数据映射为同一空间中更紧凑的哈希码,可以大大提升跨模态检索的效率.然而现有跨模态哈希方法通常使用二元相似性矩阵,不能准确描述样本间的语义相似关系,并且存在平方复杂度问题.为了更好地挖掘数据间的语义相似关系,提出了一个基于标记增强的离散跨模态哈希方法.首先借助迁移学习的先验知识生成样本的标记分布,然后通过标记分布构建描述度更强的语义相似性矩阵,再通过一个高效的离散优化算法生成哈希码,避免了量化误差问题.最后,在两个基准数据集上的实验结果验证了所提方法在跨模态检索任务上的有效性.  相似文献   

13.
田加林  徐行  沈复民  申恒涛 《软件学报》2022,33(9):3152-3164
零样本草图检索将未见类的草图作为查询样本,用于检索未见类的图像。因此,这个任务同时面临两个挑战:草图和图像之间的模态差异以及可见类和未见类的不一致性。过去的方法通过将草图和图像投射到一个公共空间来消除模态差异,还通过利用语义嵌入(如词向量和词相似度)来弥合可见类和未见类的语义不一致。在本文中,我们提出了跨模态自蒸馏方法,从知识蒸馏的角度研究可泛化的特征,无需语义嵌入参与训练。具体而言,我们首先通过传统的知识蒸馏将预训练的图像识别网络的知识迁移到学生网络。然后,通过草图和图像的跨模态相关性,跨模态自蒸馏将上述知识间接地迁移到草图模态的识别上,提升草图特征的判别性和泛化性。为了进一步提升知识在草图模态内的集成和传播,我们进一步地提出草图自蒸馏。通过为数据学习辨别性的且泛化的特征,学生网络消除了模态差异和语义不一致性。我们在三个基准数据集,即Sketchy、TU-Berlin和QuickDraw,进行了广泛的实验,证明了我们提出的跨模态自蒸馏方法与当前方法相比较的优越性。  相似文献   

14.
在域间分布适配的过程中,容易丢失一些重要的域自身信息,在源域上难以训练获得一个有效的分类器,影响其在目标域上的泛化与标注性能.基于此种情况,文中提出联合类间及域间分布适配的迁移学习方法.通过学习一个公共投影矩阵,分别将源域与目标域映射到一个公共子空间上.采用最大均值差异方法分别度量类间及域间分布距离.在目标函数的优化过程中,不但显式地使域间分布差异变小,而且增大不同类别间的差异性,提高源域与目标域之间知识迁移的性能.在迁移学习数据集上的实验表明文中方法的有效性.  相似文献   

15.
针对面向弱匹配的跨媒异构迁移学习中存在的迁移学习性能不高的问题,提出了一种基于平衡异构距离的混合拉普拉斯特征映射的跨媒异构迁移学习方法.利用大量非成对数据和相对少量的成对数据蕴含的语义信息,获取不同媒体域原始特征空间到潜在公共特征空间的映射矩阵;并在跨媒异构迁移学习中,构建混合图拉普拉斯矩阵,不仅保持了同一域下样本间的流形结构,而且保持不同域下样本间的流形结构;提升训练获得的模型在跨媒异构目标域的分类预测性能.在2个公共数据集NUS-WIDE和LabelMe上进行实验,表明了在成对数据的基础上,利用大量非成对数据可以增加模型的准确率和鲁棒性.  相似文献   

16.
深度学习算法的有效性依赖于大量的带有标签的数据,迁移学习的目的是利用已知标签的数据集(源域)来对未知标签的数据集(目标域)进行分类,因此深度迁移学习的研究成为了热门。针对训练数据标签不足的问题,提出了一种基于多尺度特征融合的领域对抗网络(Multi-scale domain adversarial network, MSDAN)模型,该方法利用生成对抗网络以及多尺度特征融合的思想,得到了源域数据和目标域数据在高维特征空间中的特征表示,该特征表示提取到了源域数据和目标域数据的公共几何特征和公共语义特征。将源域数据的特征表示和源域标签输入到分类器中进行分类,最终在目标域数据集的测试上得到了较为先进的效果。  相似文献   

17.
标准域无监督域适应学习是从相关的源域学习知识迁移到目标域,通常假设源域数据在训练阶段是可直接使用的。但是由于隐私和安全问题,在一些现实的应用中,源域数据往往是不可直接获取的,如何有效利用目标域数据从而减少噪声类的输出或特征的产生是源域无关域适应学习的巨大挑战。为解决这个问题,提出了一个基于双矫正机制的源域无关域适应学习模型(source-free domain adaptation with dual-correction mechanism,DCM)。首先,探索目标域样本信息结构,对噪声类输出进行矫正;其次,采用教师—学生模型指导特征的学习,最大化高置信度特征间的一致性以及低置信度特征间的差异性。最后,在数字集、Office-31和Office-Home数据集上的实验结果证实了DCM的有效性。  相似文献   

18.
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法mAP指标分别提升65%和48%。  相似文献   

19.
在目标检测任务中,当训练集和测试集来自不同应用场景时,通常存在检测性能下降问题,这源于不同场景的数据间存在域偏移(domain shift).收集不同场景的数据费时费力,且会增加模型部署成本,降低模型使用效率.针对这一问题,本文从强化特征的语义一致性以获得更好的域无关特征的思路出发,提出基于域内域间语义一致性约束的域自适应目标检测方法 .首先,本文考虑了特征解耦过程中的特征域内一致性,提出了一种基于正交分离特征的正交关系一致性约束,该约束能够保留解耦前后特征中的语义信息,以此强化域内特征一致性,从而提升模型识别的准确率.进一步地,本文考虑了在不同域间解耦后特征的域间一致性,引入了基于伪标签的对比学习机制,将来自不同域间的实例级特征进行对齐,以此保证域间特征一致性来提升模型的跨域性能.为验证本文所提出的方法,在本领域常用的数据集Cityscapes-FoggyCityscapes上进行了测试,相对于基线方法本文所提出的方法取得了3.1%的平均准确率(mAP)提升,其中在部分特定子类上提升达到6%;相比较最新方法也有约1%的平均准确率提升.本文还在KITTI-Cityscapes和Sim1...  相似文献   

20.
异构缺陷预测(heterogeneous defect prediction,HDP)在具有异构特征的项目间进行缺陷预测,可以有效解决源项目和目标项目使用了不同特征的问题.当前大多数HDP方法都是通过学习域不变特征子空间以减少域之间的差异来解决异构特征问题.但是,源域和目标域通常呈现出巨大的异质性,使得域对齐效果并不好.究其原因,这些方法都忽视了分类器对于两个域中的同一类别应产生相似的分类概率分布这一潜在知识,没有挖掘数据中包含的内在语义信息.另一方面,由于在新启动项目或历史遗留项目中搜集训练数据依赖于专家知识,费时费力且容易出错,探究了基于目标项目内少数标记模块来进行异构缺陷预测的可能性.鉴于此,提出一种基于同步语义对齐的异构缺陷预测方法(SHSSAN).一方面,探索从标记的源项目中学到的隐性知识,从而在类别之间传递相关性,达到隐式语义信息迁移.另一方面,为了学习未标记目标数据的语义表示,通过目标伪标签进行质心匹配达到显式语义对齐.同时,SHSSAN可以有效解决异构缺陷数据集中常见的类不平衡和数据线性不可分问题,并充分利用目标项目中的标签信息.对包含30个不同项目的公共异构数据集进行的实验表明,与目前表现优异的CTKCCA、CLSUP、MSMDA、KSETE和CDAA方法相比,在F-measure和AUC上分别提升了6.96%、19.68%、19.43%、13.55%、9.32%和2.02%、3.62%、2.96%、3.48%、2.47%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号