首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
在草图-三维模型检索任务中,草图具有类内多样性,三维模型具有复杂性,且草图-三维模型之间存在巨大的域间的差异性,这些特点的相互作用使得基于草图的三维模型检索任务变得特别困难.针对这一问题,提出一种基于联合特征映射的端到端三维模型草图检索框架.首先将三维模型转化为一组二维视图,建立跨域数据的共享数据空间;然后通过网络权值共享,建立端到端的三元度量学习网络,实现跨域数据草图和视图的联合特征映射;最后基于联合特征分布,提出4种草图-三维模型相似评价算法来实现草图-三维模型的检索.在大型公共数据集SHREC2013和SHREC2014上的检索精度分别为81.8%和75.6%,比现有算法在7项检索指标PR曲线, NN, FT, ST, E,DCG和MAP上都有所提升,检索性能突出.  相似文献   

2.
现有的基于草图的三维模型检索工作往往将数据视为静态输入,并使用卷积神经网络进行特征提取,忽略了数据的动态属性,造成了有益信息的部分丢失,进而影响了以此为基础的检索效果.为解决这一问题,提出一种基于时空信息联合嵌入的端到端三维模型草图检索算法.首先,将草图表征为动态绘制序列,体现其绘制过程中所包含的时序信息;将三维模型表征为多视图序列,体现视图间的位置关联;然后,构建包含静态空间特征提取和动态时序特征提取的端到端双流网络,结合三元中心度量学习建立跨域数据的联合时空特征嵌入,充分捕捉草图和三维模型所包含的静态、动态特征,缩小跨域数据的差异性,提高检索的准确率;最后,在标准公开数据集SHREC2013和SHREC2014上进行实验,与现有工作相比获得了较高的准确率,验证了所提算法的可行性及有效性.  相似文献   

3.
田加林  徐行  沈复民  申恒涛 《软件学报》2022,33(9):3152-3164
零样本草图检索将未见类的草图作为查询样本,用于检索未见类的图像。因此,这个任务同时面临两个挑战:草图和图像之间的模态差异以及可见类和未见类的不一致性。过去的方法通过将草图和图像投射到一个公共空间来消除模态差异,还通过利用语义嵌入(如词向量和词相似度)来弥合可见类和未见类的语义不一致。在本文中,我们提出了跨模态自蒸馏方法,从知识蒸馏的角度研究可泛化的特征,无需语义嵌入参与训练。具体而言,我们首先通过传统的知识蒸馏将预训练的图像识别网络的知识迁移到学生网络。然后,通过草图和图像的跨模态相关性,跨模态自蒸馏将上述知识间接地迁移到草图模态的识别上,提升草图特征的判别性和泛化性。为了进一步提升知识在草图模态内的集成和传播,我们进一步地提出草图自蒸馏。通过为数据学习辨别性的且泛化的特征,学生网络消除了模态差异和语义不一致性。我们在三个基准数据集,即Sketchy、TU-Berlin和QuickDraw,进行了广泛的实验,证明了我们提出的跨模态自蒸馏方法与当前方法相比较的优越性。  相似文献   

4.
针对现有胸部X线影像和诊断报告跨模态方法重点聚焦全局信息对齐,忽视影像和诊断报告间的细粒度语义关联,导致检索精度低、匹配度差的问题,提出全局和局部联合对齐的胸部X线影像和诊断报告双塔跨模态检索方法(CDTCR)。具体来说,针对细粒度语义表征,提出由残差网络组成的影像编码器学习影像的细粒度特征和由Transformer构成的BERT模型学习诊断报告的细粒度语义特征;针对细粒度语义关联问题,设计影像对句子和区域对词组两个不同粒度的模态间信息对齐策略,解决了不同模态间细粒度语义关联不足的问题。大型医学数据集MIMIC-CXR上的实验结果表明,CDTCR比现有的跨模态检索方法,检索精度更高、可解释性更强。  相似文献   

5.
由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。  相似文献   

6.
针对无监督跨模态检索任务中不能充分利用单个模态内的语义关联信息的问题,提出了一种基于图卷积网络的无监督跨模态哈希检索方法。通过图像和文本编码器分别获得两个模态的特征,输入到图卷积网络中挖掘单个模态的内部语义信息,将结果通过哈希编码层进行二值化操作后,与模态间的深度语义关联相似度矩阵进行对比计算损失,不断重构优化生成的二进制编码,直到生成样本对应的健壮哈希表达。实验结果表明,与经典的浅层方法和深度学习方法对比,该方法在多个数据集上的跨模态检索准确率均有明显提升。证明通过图卷积网络能够进一步挖掘模态内的语义信息,所提模型具有更高的准确性和鲁棒性。  相似文献   

7.
基于图像的视觉数据跨域检索任务旨在搜索与输入图像在语义上一致或外形上相似的跨域图像和三维模型数据,其面临的主要问题是处理跨域数据之间的模态异质性。现有方法通过构建公共特征空间,采用域适应算法或深度度量学习算法实现跨域特征的域对齐或语义对齐,其有效性仅在单一类型的跨域检索任务中进行了验证。提出一种基于深度语义关联学习的方法,以适用多种类型的基于图像的跨域视觉数据检索任务。首先,使用异构网络提取跨域数据的初始视觉特征;然后,通过构建公共特征空间实现初始特征映射,以便进行后续的域对齐和语义对齐;最后,通过域内鉴别性学习、域间一致性学习和跨域相关性学习,消除跨域数据特征之间的异质性,探索跨域数据特征之间的语义相关性,并为检索任务生成鲁棒且统一的特征表示。实验结果表明,该方法在TU-Berlin、IM2MN和MI3DOR数据集中的平均精度均值(mAP)分别达到0.448、0.689和0.874,明显优于对比方法。  相似文献   

8.
草图检索(SBIR)是基于内容的图像检索(CBIR)的扩展,是一种灵活便捷的目标图像检索方式,其研究的焦点是如何减少手绘草图域与自然图像域之间的域差。传统方法提取手工特征完成草图域与图像域之间的近似转换以减少域差,但该类方法无法有效拟合2个域内容,导致检索精度不高。深度学习方法依赖大量数据进行图像高维特征的提取,突破了传统方法的局限,已被证明可以有效解决跨域建模问题。研究聚焦于基于深度学习的草图检索方法,在深度特征提取模型、公开的数据测试集、粗粒度和细粒度检索、哈希技术和类别泛化等几个方面对草图检索的深度学习方法的相关研究工作进行了综述和评论。然后进行了实验比较研究,一方面,对现有3个公开的SBIR测试集Sketchy、TU-Berlin和QuickDraw进行适用性评估;另一方面,选取3个最新的SBIR深度学习模型GRLZS模型、SEM-PCYC模型和SAKE模型进行性能分析与比较。最后,对草图检索面临的挑战和未来研究方向进行了总结与展望。  相似文献   

9.
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。  相似文献   

10.
文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像.近年来受到学术界和工业界的广泛关注.该任务同时面临两个挑战:细粒度检索以及图像与文本之间的异构鸿沟.部分方法提出使用有监督属性学习提取属性相关特征,在细粒度上关联图像和文本.然而属性标签难以获取,导致这类方法在实践中表现不佳.如何在没有属性标注的情况下提取属性相关特征,建立细粒度的跨模态语义关联成为亟待解决的关键问题.为解决这个问题,融合预训练技术提出基于虚拟属性学习的文本-图像行人检索方法,通过无监督属性学习建立细粒度的跨模态语义关联.第一,基于行人属性的不变性和跨模态语义一致性提出语义引导的属性解耦方法,所提方法利用行人的身份标签作为监督信号引导模型解耦属性相关特征.第二,基于属性之间的关联构建语义图提出基于语义推理的特征学习模块,所提模块通过图模型在属性之间交换信息增强特征的跨模态识别能力.在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上与现有方法进行实验对比,实验结果表明了所提方法的有效性.  相似文献   

11.
草图具有易于构建且不受语言、专业、年龄限制等优势,基于手绘草图的三维模型检索受到越来越多的关注.然而在三维模型草图检索任务中,三维模型具有复杂性,草图具有类内多样性,同时三维模型与草图之间又具有巨大的域间差异性,这些特点的相互作用严重影响检索的准确性.针对以上问题,提出了一种基于自适应多类中心和半异构网络的三维模型草图...  相似文献   

12.
随着不同模态的数据在互联网中的飞速增长,跨模态检索逐渐成为了当今的一个热点研究问题.哈希检索因其快速、有效的特点,成为了大规模数据跨模态检索的主要方法之一.在众多图像-文本的深度跨模态检索算法中,设计的准则多为尽量使得图像的深度特征与对应文本的深度特征相似.但是此类方法将图像中的背景信息融入到特征学习中,降低了检索性能...  相似文献   

13.
随着图像、文本、声音、视频等多模态网络数据的急剧增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,由于其存在异构性差异,在不同的数据模态之间寻找内容相似性仍然具有挑战性。现有方法大都将异构数据通过映射矩阵或深度模型投射到公共子空间,来挖掘成对的关联关系,即图像和文本的全局信息对应关系,而忽略了数据内局部的上下文信息和数据间细粒度的交互信息,无法充分挖掘跨模态关联。为此,文中提出文本-图像协同注意力网络模型(CoAN),通过选择性地关注多模态数据的关键信息部分来增强内容相似性的度量。CoAN利用预训练的VGGNet模型和循环神经网络深层次地提取图像和文本的细粒度特征,利用文本-视觉注意力机制捕捉语言和视觉之间的细微交互作用;同时,该模型分别学习文本和图像的哈希表示,利用哈希方法的低存储特性和计算的高效性来提高检索速度。在实验得出,在两个广泛使用的跨模态数据集上,CoAN的平均准确率均值(mAP)超过所有对比方法,文本检索图像和图像检索文本的mAP值分别达到0.807和0.769。实验结果说明,CoAN有助于检测多模态数据的关键信息区域和数据间细粒度的交互信息,充分挖掘跨模态数据的内容相似性,提高检索精度。  相似文献   

14.
基于空间关系的手绘草图检索   总被引:5,自引:0,他引:5  
手绘草图是人类最自然的人机交互方式,在普适计算模式下手绘草图将得到越来越多的应用,手绘草图的检索也成为一个新的课题。本文提出一种高效的草图检索方法,该方法以独立于用户绘制习惯的手绘草图统一表示为基础,以手绘草图空间关系为检索相似度匹配特征,并采用特征点调整的相关反馈机制优化检索结果。实验表明本文提出的方法具有很好的检索效果。  相似文献   

15.
目的 传统的手绘图像检索方法主要集中在检索相同类别的图像,忽略了手绘图像的细粒度特征。对此,提出了一种新的结合细粒度特征与深度卷积网络的手绘图像检索方法,既注重通过深度跨域实现整体匹配,也实现细粒度细节匹配。方法 首先构建多通道混合卷积神经网络,对手绘图像和自然图像分别进行不同的处理;其次通过在网络中加入注意力模型来获取细粒度特征;最后将粗细特征融合,进行相似性度量,得到检索结果。结果 在不同的数据库上进行实验,与传统的尺度不变特征(SIFT)、方向梯度直方图(HOG)和深度手绘模型Deep SaN(sketch-a-net)、Deep 3DS(sketch)、Deep TSN(triplet sketch net)等5种基准方法进行比较,选取了Top-1和Top-10,在鞋子数据集上,本文方法Top-1正确率提升了12%,在椅子数据集上,本文方法Top-1正确率提升了11%,Top-10提升了3%,与传统的手绘检索方法相比,本文方法得到了更高的准确率。在实验中,本文方法通过手绘图像能在第1幅检索出绝大多数的目标图像,达到了实例级别手绘检索的目的。结论 提出了一种新的手绘图像检索方法,为手绘图像和自然图像的跨域检索提供了一种新思路,进行实例级别的手绘检索,与原有的方法相比,检索精度得到明显提升,证明了本文方法的可行性。  相似文献   

16.
跨模态检索可以通过一种模态检索出其他模态的信息,已经成为大数据时代的研究热点。研究者基于实值表示和二进制表示两种方法来减小不同模态信息的语义差距并进行有效的相似度对比,但仍会有检索效率低或信息丢失的问题。目前,如何进一步提高检索效率和信息利用率是跨模态检索研究面临的关键挑战。介绍了跨模态检索研究中基于实值表示和二进制表示两种方法的发展现状;分析对比了包含两种表示技术下以建模技术和相似性对比为主线的五种跨模态检索方法:子空间学习、主题统计模型学习、深度学习、传统哈希和深度哈希;对最新的多模态数据集进行总结,为相关的研究和工程人员提供有价值的参考资料;分析了跨模态检索面临的挑战并指出了该领域未来研究方向。  相似文献   

17.
针对传统夹具实例检索方法的不足和三维模型检索的局限性,提出一种对于零件几何形状的零件特征关注度模型表示方法及生成该模型的方法,并给出了根据零件特征关注度模型进行夹具实例检索的算法.根据B-rep实体表示方法构造零件属性邻接图,通过特征提取算法获得零件的特征并计算特征关注度,形成关注度模型.在零件特征关注度模型的基础上,利用非精确图匹配算法匹配零件关注度模型,并应用于夹具设计实例检索过程中.应用证明,该算法可以满足工程应用的需求.  相似文献   

18.
19.
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号