首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着多模态数据的爆发式增长,跨模态检索作为一种搜索多模态数据的最常用方法,受到越来越多的关注.然而,目前存在的大多数深度学习的方法仅仅采用模型后端最后一个全连接层输出作为模态独有的高层语义表征,忽视了多个层次上不同尺度特征之间的语义相关性,具有一定的局限性.为此,本文提出一种基于特征金字塔融合表征网络的跨模态哈希检索方...  相似文献   

2.
多模态哈希能够将异构的多模态数据转化为联合的二进制编码串。由于其具有低存储成本、快速的汉明距离排序的优点,已经在大规模多媒体检索中受到了广泛的关注。现有的多模态哈希方法假设所有的询问数据都具备完整的多种模态信息以生成它们的联合哈希码。然而,实际应用中很难获得全完整的多模态信息,针对存在模态信息缺失的半配对询问场景,该文提出一种新颖的半配对询问哈希(SPQH),以解决半配对的询问样本的联合编码问题。首先,提出的方法执行投影学习和跨模态重建学习以保持多模态数据间的语义一致性。然后,标签空间的语义相似结构信息和多模态数据间的互补信息被有效地捕捉以学习判别性的哈希函数。在询问编码阶段,通过学习到的跨模态重构矩阵为未配对的样本数据补全缺失的模态特征,然后再经习得的联合哈希函数生成哈希特征。相比最先进的基线方法,在Pascal Sentence, NUS-WIDE和IAPR TC-12数据集上的平均检索精度提高了2.48%。实验结果表明该算法能够有效编码半配对的多模态询问数据,取得了优越的检索性能。  相似文献   

3.
随着图像数据的迅猛增长,当前主流的图像检索方法采用的视觉特征编码步骤固定,缺少学习能力,导致其图像表达能力不强,而且视觉特征维数较高,严重制约了其图像检索性能。针对这些问题,该文提出一种基于深度卷积神径网络学习二进制哈希编码的方法,用于大规模的图像检索。该文的基本思想是在深度学习框架中增加一个哈希层,同时学习图像特征和哈希函数,且哈希函数满足独立性和量化误差最小的约束。首先,利用卷积神经网络强大的学习能力挖掘训练图像的内在隐含关系,提取图像深层特征,增强图像特征的区分性和表达能力。然后,将图像特征输入到哈希层,学习哈希函数使得哈希层输出的二进制哈希码分类误差和量化误差最小,且满足独立性约束。最后,给定输入图像通过该框架的哈希层得到相应的哈希码,从而可以在低维汉明空间中完成对大规模图像数据的有效检索。在3个常用数据集上的实验结果表明,利用所提方法得到哈希码,其图像检索性能优于当前主流方法。  相似文献   

4.
关欣  国佳恩  卢雨 《电子与信息学报》2023,45(12):4411-4420
针对当前主流的基于卷积神经网络(CNN)范式的跨模态图像检索算法无法有效提取舰船图像细节特征,以及跨模态“异构鸿沟”难以消除等问题,该文提出一种基于对抗机制的判别性哈希变换器(DAHT)用于舰船图像的跨模态快速检索。该网络采用双流视觉变换器(ViT)结构,依托ViT的自注意力机制进行舰船图像的判别性特征提取,并设计了Hash Token结构用于哈希生成;为了消除同类别图像的跨模态差异,整个检索框架以一种对抗的方式进行训练,通过对生成哈希码进行模态辨别实现模态混淆;同时设计了一种基于反馈机制的跨模加权5元组损失(NW-DCQL)以保持网络对不同类别图像的语义区分性。在两组数据集上开展的4类跨模态检索实验中,该文方法相比次优检索结果分别取得了9.8%, 5.2%, 19.7%, 21.6%的性能提升(32 bit),在单模态检索任务中亦具备一定的性能优势。  相似文献   

5.
面对形态万千、变化复杂的海量极光数据,对其进行分类与检索为进一步研究地球磁场物理机制和空间信息具有重要意义。该文基于卷积神经网络(CNN)对图像特征提取方面的良好表现,以及哈希编码可以满足大规模图像检索对检索时间的要求,提出一种端到端的深度哈希算法用于极光图像分类与检索。首先在CNN中嵌入空间金字塔池化(SPP)和幂均值变换(PMT)来提取图像中多种尺度的区域信息;其次在全连接层之间加入哈希层,将全连接层最能表现图像的高维语义信息映射为紧凑的二值哈希码,并在低维空间使用汉明距离对图像对之间的相似性进行度量;最后引入多任务学习机制,充分利用图像标签信息和图像对之间的相似度信息来设计损失函数,联合分类层和哈希层的损失作为优化目标,使哈希码之间可以保持更好的语义相似性,有效提升了检索性能。在极光数据集和 CIFAR-10 数据集上的实验结果表明,所提出方法检索性能优于其他现有检索方法,同时能够有效用于极光图像分类。  相似文献   

6.
基于内容的图像检索的关键在于对图像进行特征提取和对特征进行多比特量化编码 。近年来,基于内容的图像检索使用低级可视化特征对图像进行描述,存在“语义鸿沟”问题;其次,传统量化编码使用随机生成的投影矩阵,该矩阵与特征数据无关,因此不能保证量化的精确度。针对目前存在的这些问题,本文结合深度学习思想与迭代量化思想,提出基于卷积神经网络VGG16和迭代量化(Iterative Quantization, ITQ)的图像检索方法。使用在公开数据集上预训练VGG16网络模型,提取基于深度学习的图像特征;使用ITQ方法对哈希哈函数进行训练,不断逼近特征与设定比特数的哈希码之间的量化误差最小值,实现量化误差的最小化;最后使用获得的哈希码进行图像检索。本文使用查全率、查准率和平均精度均值作为检索效果的评价指标,在Caltech256图像库上进行测试。实验结果表明,本文提出的算法在检索优于其他主流图像检索算法。   相似文献   

7.
最近邻搜索在大规模图像检索中变得越来越重要。在最近邻搜索中,许多哈希方法因为快速查询和低内存被提出。然而,现有方法在哈希函数构造过程中对数据稀疏结构研究的不足,本文提出了一种无监督的稀疏自编码的图像哈希方法。基于稀疏自编码的图像哈希方法将稀疏构造过程引入哈希函数的学习过程中,即通过利用稀疏自编码器的KL距离对哈希码进行稀疏约束以增强局部保持映射过程中的判别性,同时利用L2范数来哈希编码的量化误差。实验中用两个公共图像检索数据集CIFAR-10和YouTube Faces验证了本文算法相比其他无监督哈希算法的优越性。  相似文献   

8.
现有的基于深度学习图像融合算法无法同时满足融合效果与运算效率,且在建模过程中大部分采用基于单一尺度的融合策略,无法很好地提取源图像中上下文信息。为此本文提出了一种基于信息感知与多尺度特征结合的端到端图像融合网络。该网络由编码器、融合策略和解码器组成。具体来说,通过编码器提取红外与可见光图像的多尺度特征,并设计特征增强融合模块来融合多个尺度的不同模态特征,最后设计了一个轻量级的解码器将不同尺度的低级细节与高级语义信息结合起来。此外,利用源图像的信息熵构造一个信息感知损失函数来指导融合网络的训练,从而生成具有丰富信息的融合图像。在TNO、MSRS数据集上对提出的融合框架进行了评估实验。结果表明:与现有的融合方法相比,该网络具有较高计算效率;同时在主观视觉评估和客观指标评价上都优于其它方法。  相似文献   

9.
基于卷积神经网络和监督核哈希的图像检索方法   总被引:1,自引:0,他引:1       下载免费PDF全文
当前主流的图像检索方法采用的视觉特征,缺乏自主学习能力,导致其图像表达能力不强,此外,传统的特征索引方法检索效率较低,难以适用于大规模图像数据.针对这些问题,本文提出了一种基于卷积神经网络和监督核哈希的图像检索方法.首先,利用卷积神经网络的学习能力挖掘训练图像内容的内在隐含关系,提取图像深层特征,增强特征的视觉表达能力和区分性;然后,利用监督核哈希方法对高维图像深层特征进行监督学习,并将高维特征映射到低维汉明空间中,生成紧致的哈希码;最后,在低维汉明空间中完成对大规模图像数据的有效检索.在ImageNet-1000和Caltech-256数据集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力,提高图像检索效率,优于当前主流方法.  相似文献   

10.
当前主流图像检索技术所采用的传统视觉特征编码缺少足够的学习能力,影响学习得到的特征表达能力。此外,由于视觉特征维数高,会消耗大量的内存,因此降低了图像检索的性能。文中基于深度卷积神经网络与改进的哈希算法,提出并设计了一种端到端训练方式的图像检索方法。该方法将卷积神经网络提取的高层特征和哈希函数相结合,学习到具有足够表达能力的哈希特征,从而在低维汉明空间中完成对图像数据的大规模检索。在两个常用数据集上的实验结果表明,所提出的哈希图像检索方法的检索性能优于当前的一些主流方法。  相似文献   

11.
哈希广泛应用于图像检索任务。针对现有深度监督哈希方法的局限性,该文提出了一种新的非对称监督深度离散哈希(ASDDH)方法来保持不同类别之间的语义结构,同时生成二进制码。首先利用深度网络提取图像特征,根据图像的语义标签来揭示每对图像之间的相似性。为了增强二进制码之间的相似性,并保证多标签语义保持,该文设计了一种非对称哈希方法,并利用多标签二进制码映射,使哈希码具有多标签语义信息。此外,引入二进制码的位平衡性对每个位进行平衡,鼓励所有训练样本中的–1和+1的数目近似。在两个常用数据集上的实验结果表明,该方法在图像检索方面的性能优于其他方法。  相似文献   

12.
现有多模态分割方法通常先对图像进行配准,再对配准后的图像进行分割。对于成像特点差异较大的不同模态,两阶段的结构匹配与分割算法下的分割精度较低。针对该问题,该文提出一种基于跨模态空间匹配的多模态肺部肿块分割网络(MMSASegNet),其具有模型复杂度低和分割精度高的特点。该模型采用双路残差U型分割网络作为骨干分割网络,以充分提取不同模态输入特征,利用可学习的空间变换网络对其输出的多模态分割掩膜进行空间结构匹配;为实现空间匹配后的多模态特征图融合,形变掩膜和参考掩膜分别与各自模态相同分辨率的特征图进行矩阵相乘,并经特征融合模块,最终实现多模态肺部肿块分割。为提高端到端多模态分割网络的分割性能,采用深度监督学习策略,联合损失函数约束肿块分割、肿块空间匹配和特征融合模块,同时采用多阶段训练以提高不同功能模块的训练效率。实验数据采用T2权重(T2W)磁共振图像和扩散权重磁共振图像(DWI)肺部肿块分割数据集,该方法与其他多模态分割网络相比,DSC (Dice Similarity Coefficient)和HD (Hausdorff Distance)等评价指标均显著提高。  相似文献   

13.
为了应对手工视觉特征与哈希编码过程不能最佳地兼容以及现有哈希方法无法区分图像语义信息的问题,提出一种基于深度卷积神经网络学习二进制哈希编码的方法.该方法基本思想是在深度残差网络中增加一个哈希层,同时学习图像特征和哈希函数;以此同时提出一种更加紧凑的分级哈希结构,用来提取更加接近图像语义的特征.经MNIST、CIFAR-10、NUS-WIDE数据集的实验,结果表明该方法优于现有的哈希方法.该方法不仅统一了特征学习和哈希编码的过程,同时深层残差网络也能得到更接近图像语义的特征,进而提高了检索准确度.  相似文献   

14.
娄焕  邱天 《信息技术》2023,(2):75-80
针对目前网络中有些新闻存在虚假性,缺乏真实性等问题,根据假新闻所包含的数据特征进行分析,选取不同的特征提取方法来针对不同模态数据进行特征提取,并进行特征融合,提出了基于多模态特征融合的检测算法MMDM。首先基于外部信息的文本模态特征提取,然后融合图片物理及语义信息进行特征提取,最后对两个模块特征融合。实验结果表明,多模态特征融合算法检测性能优于其他方法。  相似文献   

15.
随着互联网的广泛应用,图像数据越来越多,如何从海量图像中快速检索出感兴趣的图像成为难题。文中提出一种基于Hadoop的图像检索方法,首先提取图像SURF特征点,经K-Means聚类、PCA降维后得到图像的特征矩阵,再使用局部敏感哈希算法(LSH)得到固定长度的哈希码,并使用HBases存储图像和哈希值,检索时使用欧式距离进行相似度计算。在MirFlickr数据集进行了图像检索实验,结果表明,文中的方法可以大幅提高图像检索效率,可以满足海量图像检索的需要。  相似文献   

16.
张天  靳聪  帖云  李小兵 《信号处理》2020,36(6):966-976
跨模态检索旨在通过以某一模态的数据为查询词,使人们能够得到与之相关的其他不同模态数据的检索结果的新型检索方法,这已成为多媒体和信息检索领域中一个有趣的研究问题。但是,目前大多数的研究成果集中于文本到图像、文本到视频以及歌词到音频等跨模态相关任务上,而关于如何为特定的视频通过跨模态检索得到合适的音乐这一跨模态的相关研究却很有限。此外,大多现有的关于视频和音频跨模态的研究依赖于元数据(例如关键字,标签或描述)。本文介绍了一种基于音频和视频这两种模态数据内容的跨模态检索的方法,该方法以新型的双流处理网络为框架,并通过神经网络学习两模态数据在公共子空间的特征表达,以计算音频和视频数据之间的相似度。本文所提出的方法的创新点主要在以下三个方面:1)在原有的提取各模态特征的模型基础上引入注意力机制,以此得到了视频和音频的特征选择模型,并筛选出相应的特征表达。2)使用了样本挖掘机制,剔除了无效样本,使得数据的训练更加高效。3)从计算模态间相似性和保持模态内结构不变两方面出发,设计了相应的损失函数进行模型的训练。且所提出的模型在VEGAS数据集和自建数据集上都取得了较高的准确度。   相似文献   

17.
随着视频获取设备和技术的不断发展,视频数量增长快速,在海量视频中精准查找目标视频片段是具有挑战的任务。跨模态视频片段检索旨在根据输入一段查询文本,模型能够从视频库中找出符合描述的视频片段。现有的研究工作多是关注文本与候选视频片段的匹配,忽略了视频上下文的“语境”信息,在视频理解时,存在对特征关系表达不足的问题。针对此,该文提出一种基于显著特征增强的跨模态视频片段检索方法,通过构建时间相邻网络学习视频的上下文信息,然后使用轻量化残差通道注意力突出视频片段的显著特征,提升神经网络对视频语义的理解能力。在公开的数据集TACoS和ActivityNet Captions的实验结果表明,该文所提方法能更好地完成视频片段检索任务,比主流的基于匹配的方法和基于视频-文本特征关系的方法取得了更好的表现。  相似文献   

18.
大规模人脸数据集上的快速检索是人脸识别应用的关键问题.较短长度人脸哈希方法可降低人脸特征比对的计算量,有助于大规模人脸识别的应用.为此提出了一种基于三元组损失函数的深度人脸哈希方法,通过优化三元组损失函数训练深度卷积神经网络以提取图像深层特征,使得由该特征表征的同类图像在欧式空间中的距离尽可能小,不同类图像在欧式空间中...  相似文献   

19.
研究语义信息检索方法,提高检索的效率.差异化信息由于特征差异过大,在检索过程中存在较大排异现象,传统的语义信息检索模型针对大差异信息检索过程中,以多轮次检测为主,效率很低.为此,提出一种基于决策树算法的语义信息检索方法.根据多层次解析融合相关理论,计算窗口函数,并且根据窗口函数进行不同层次数据的融合,得到差异信息融合结果.根据上述结果,建立决策树,实现语义信息的检索.实验结果表明,利用改进算法进行语义信息检索,能够提高检索的效率.  相似文献   

20.
孙劲光  吴明岩 《信号处理》2022,38(10):2201-2210
针对目前由于行人重识别普遍存在的遮挡以及多姿态变化等原因,导致的行人重识别率低的问题,提出一种基于多尺度加权特征融合的行人重识别方法(Person Re-identification Method Based on Multi-scale Weighted Feature Fusion,MSWF)。该方法首先使用基准网络ResNeSt-50提取图像特征,获得下采样3倍、下采样4倍和下采样5倍的特征图,输入到加权特征金字塔网络中,然后使用快速归一化融合方法进行特征融合,在特征融合中引入加权操作可以让模型在训练过程中学习如何给融合特征的权重值进行分配,这样可以充分利用不同尺度的特征,获得更加丰富的行人特征。最后将融合后的富含语义信息的高层特征作为全局特征,将融合后的高分辨率特征作为局部特征。在训练过程中,联合Softmax分类损失函数、三元组损失函数和中心损失函数对模型进行训练,在测试阶段,将全局特征和局部特征沿通道维度进行拼接表示行人特征,并使用欧氏距离计算行人之间的距离。该方法在Market-1501、DukeMTMC-reID、CUHK03-Labeled和CUHK03-Detect...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号