首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 223 毫秒
1.
针对现有跨模态检索方法不能充分挖掘模态之间的相似性信息的问题,提出一种基于语义融合和多重相似性学习(CFMSL)方法。首先,在特征提取过程中融合不同模态的语义信息,加强不同模态特征间的交互,使得模型能够充分挖掘模态间的关联信息。然后,利用生成器将单模态特征和融合模态特征映射到公共子空间中,通过最大化锚点与正例样本之间的相似性和最小化锚点与负例样本间的相似性得到具有判别性的特征进行模态对齐。最后,基于决策融合方式对相似性列表进行重排序,使得最终排序结果同时考虑单模态特征和融合模态特征,提高检索性能。通过在Pascal Sentences、Wikipedia、NUS-WIDE-10K这3个广泛使用的图文数据集上进行实验,实验结果表明CFMSL模型能够有效提高跨模态检索任务的性能。  相似文献   

2.
由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。  相似文献   

3.
随着深度神经网络的不断发展,跨模态检索模型的构建也随之取得了长足的进步。以图卷积网络(GCN)为基础的跨模态检索方法可以较好地捕获数据的语义相关性,因此越来越受到人们的关注。但是,目前大部分研究多将标签之间和样本之间的相关性融入到跨模态表示当中,并没有考虑到标签集合之间的相关性对于跨模态检索模型性能的影响。在多标签场景下,标签集合之间的多标签相关性可以有效地描述对应样本之间的语义关系,因此充分发现多标签相关性并将其融入到跨模态表示中,对于提高跨模态检索模型的性能有着重要的意义。提出了一种基于二重语义相关性图卷积网络(dual semantic correlation graph convolutional networks, DSCGCN)的跨模态检索方法,该方法利用GCN自适应地发现标签之间和多标签之间的语义相关性,并将此二重语义相关性融入到样本公共表示中。此外,还提出了一种多标签相似性损失,用于使生成的样本公共表示相似性更接近于语义相似性。通过在NUS-WIDE、MIRFlickr-25K和MS-COCO三个数据集上的实验可以发现,由于引入了多标签语义相关性,DSCGCN可以获得令...  相似文献   

4.
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。  相似文献   

5.
近年来,随着信息技术的发展,图像、文本、视频、音频等多媒体数据呈现出快速增长的趋势.当处理大量数据时,某些传统检索方法的效率可能会受到影响,并且无法在可接受的时间内获得令人满意的准确性.此外,海量的数据还导致了巨大的存储消耗问题.为了解决上述问题,哈希学习被提出.现有的哈希学习方法首先为数据生成二进制哈希码,并且在学习中让原本相似的数据有相似的哈希码,让不相似的数据有不同的哈希码.然后,在学到的哈希码空间中,通过异或操作进行快速的相似性比较.通过用二进制哈希码代替数据原始的高维特征,可以达到显著降低存储成本的目的.基于哈希学习高效索引和快速查询的特点,其在跨模态检索领域受到了广泛的关注.但是目前的跨模态哈希方法面临着以下几个问题:(1)大多数方法都尝试保持样本间的成对相似性,而忽视了样本间的相对相似性,即样本的排序信息,但排序信息对检索有很重要的作用,因而导致这些方法效果并非最优;(2)许多基于成对相似性的哈希检索方法的时间复杂度为O(n2),无法直接扩展到大规模数据集上,具有一定的局限性;(3)为了简化离散求解问题,目前很多方法采用松弛策略来学习哈希码的近似解,但这种策略会引入较大的量化误差.为了解决以上问题,我们提出了一种基于排序的监督离散跨模态哈希方法(简称为RSDCH).该方法由排序信息学习和哈希学习两步骤组成.在排序信息学习阶段,我们通过嵌入数据的流形结构和语义标签来学习一个具有排序信息的得分矩阵.在哈希学习阶段,我们通过保持学到的排序信息来生成训练样本的哈希码并学出对应的哈希函数.为了让模型能够更好地扩展到大规模数据集,我们使用了锚点采样策略,以获得可接受的且与训练样本数成线性关系的时间复杂度.为了学到高质量的哈希码表示,我们设计了两种有效的相似性保持策略.除此之外,为了避免松弛求解策略引入的量化误差,我们设计了 一种交替迭代的优化算法来离散地学习哈希码.我们在MIRFlickr-25K及NUS-WIDE这两种广泛使用的多标签数据集上进行了对比实验.结果表明,本文提出的方法在平均精确率均值(MAP)、归一化折损累计增益(NDCG)、精确率-召回率曲线(Precision-Recall Curve)等方面均优于现有的几种跨模态哈希方法.通过消融实验,我们验证了 RSDCH模型中各个模块的必要性和有效性.此外,我们还通过额外的实验测试了模型的收敛性、参数敏感性和训练效率,进一步验证了 RSDCH模型的有效性.  相似文献   

6.
移动机器人主要依靠激光雷达采集的点云和摄像机采集的图像信息来感知周围环境.在极端天气或夜晚的情况下,摄像机采集图像会受到极大干扰;本文基于聚类典型相关分析(cluster-canonical correlation analysis,cluster–CCA)提出一种面向室外移动机器人的雷达图像跨模态检索技术,首先利用深度学习网络提取点云和图像的特征,然后使用聚类典型相关分析将两种模态的特征映射到子空间,最后计算欧氏距离进行检索,可以从图像数据库中检索得出与点云最相似的图像文件.本文所提出的方法在KITTI数据集上进行了验证,实现了从点云到图像的跨模态检索,结果验证了cluster–CCA在室外移动机器人雷达图像检索方面应用的有效性.  相似文献   

7.
由于不同模态数据之间的异构性以及语义鸿沟等特点,给跨模态数据分析带来巨大的挑战.本文提出了一个新颖的相似度保持跨模态哈希检索算法.利用模态内数据相似性结构使得模态内相似的数据具有相似的残差,从而保证学习到的哈希码能够保持模态内数据的局部结构.同时利用模态间数据的标签,使得来自于不同模态同时具有相同标签的数据对应的哈希码能够紧密聚集在一起.为了进一步提高哈希码的鉴别能力,算法引入线性回归使得投影后的哈希码能够逼近样本的二值标签.在三个公开的不同跨模态检索数据集上的实验结果显示本文算法有较高的平均查准率.  相似文献   

8.
跨模态哈希通过将不同模态的数据映射为同一空间中更紧凑的哈希码,可以大大提升跨模态检索的效率.然而现有跨模态哈希方法通常使用二元相似性矩阵,不能准确描述样本间的语义相似关系,并且存在平方复杂度问题.为了更好地挖掘数据间的语义相似关系,提出了一个基于标记增强的离散跨模态哈希方法.首先借助迁移学习的先验知识生成样本的标记分布,然后通过标记分布构建描述度更强的语义相似性矩阵,再通过一个高效的离散优化算法生成哈希码,避免了量化误差问题.最后,在两个基准数据集上的实验结果验证了所提方法在跨模态检索任务上的有效性.  相似文献   

9.
在机械制造智能化进程中不可避免地产生了海量零配件模型信息,给数据的高效检索带来了巨大的挑战。考虑到设计草图具备用户友好且轻量级的特性,方法通过构造深度跨域表征模型进行基于设计草图的机械零配件模型检索。针对草图和三维模型的跨模态信息关联问题,提出特征联合学习方法,旨在控制检索对象类内及类间差异的过程中,使特征描述符习得单一域特征的同时融合跨域信息,建立跨模态数据在共嵌空间下的一致性关联表征。最后,利用哈希编码构建索引表实现海量数据的快速检索。在零部件数据上的实验结果表明,所提出的基于设计草图的零配件检索方法在同期方法中既能实现最准确的检索结果,也具备较高的检索效率。方法在提升跨模态零配件信息检索准确性的同时提高了数据管理效率,从而间接提升了产品设计的效率和便捷性,相关系统已经在部分企业落地应用且获得良好反馈。  相似文献   

10.
基于哈希编码的无监督跨模态检索方法以其存储代价低、检索速度快、无需人工标注信息的优点受到了广泛的关注.最近的方法通过融合各模态的相似度信息构建联合模态相似度矩阵,用以指导哈希编码网络的学习.然而,这些方法未考虑数据特征空间的流形结构差异对相似度的影响而引入了噪声降低了模型的检索性能.本文提出了一种基于联合模态语义相似度修正的无监督跨模态哈希方法(JSSR),引入特征空间中的流形结构信息修正相似度矩阵中的噪声信息,同时增强语义相关样本的亲和力,使得生成的哈希码更具判别性和区分度.在典型的公开数据集NUS-WIDE和MIR Flickr上的实验结果表明,JSSR在跨模态检索精度上超越了现有的方法.  相似文献   

11.
Keyword search enables web users to easily access XML data without understanding the complex data schemas. However, the native ambiguity of keyword search makes it arduous to select qualified relevant results matching keywords. To solve this problem, researchers have made much effort on establishing ranking models distinguishing relevant and irrelevant passages, such as the highly cited TF*IDF and BM25. However, these statistic based ranking methods mostly consider term frequency, inverse document frequency and length as ranking factors, ignoring the distribution and connection information between different keywords. Hence, these widely used ranking methods are powerless on recognizing irrelevant results when they are with high term frequency, indicating a performance limitation. In this paper, a new searching system XDist is accordingly proposed to attack the problems aforementioned. In XDist, we firstly use the semantic query model maximal lowest common ancestor (MAXLCA) to recognize the returned results of a given query, and then these candidate results are ranked by BM25. Especially, XDist re-ranks the top several results by a combined distribution measurement (CDM) which considers four measure criterions: term proximity, intersection of keyword classes, degree of integration among keywords and quantity variance of keywords. The weights of the four measures in CDM are trained by a listwise learning to optimize method. The experimental results on the evaluation platform of INEX show that the re-ranking method CDM can effectively improve the performance of the baseline BM25 by 22% under iP[0.01] and 18% under MAiP. Also the semantic model MAXLCA and the search engine XDist perform the best in their respective related fields.  相似文献   

12.
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。  相似文献   

13.
The radial basis function (RBF) centers play different roles in determining the classification capa- bility of a Gaussian radial basis function neural network (GRBFNN) and should hold different width values. However, it is very hard and time-consuming to optimize the centers and widths at the same time. In this paper, we introduce a new insight into this problem. We explore the impact of the definition of widths on the selection of the centers, propose an optimization algorithm of the RBF widths in order to select proper centers from the center candidate pool, and improve the classification performance of the GRBFNN. The design of the objective function of the optimization algorithm is based on the local mapping capability of each Gaussian RBF. Further, in the design of the objective function, we also handle the imbalanced problem which may occur even when different local regions have the same number of examples. Finally, the recursive orthogonal least square (ROLS) and genetic algorithm (GA), which are usually adopted to optimize the RBF centers, are separately used to select the centers from the center candidates with the initialized widths, in order to testify the validity of our proposed width initialization strategy on the selection of centers. Our experimental results show that, compared with the heuristic width setting method, the width optimization strategy makes the selected cen- ters more appropriate, and improves the classification performance of the GRBFNN. Moreover, the GRBFNN constructed by our method can attain better classification performance than the RBF LS-SVM, which is a state-of-the-art classifier.  相似文献   

14.
针对现有哈希方法在特征学习过程中无法区分各区域特征信息的重要程度和不能充分利用标签信息来深度挖掘模态间相关性的问题,提出了自适应混合注意力深度跨模态哈希检索(AHAH)模型。首先,通过自主学习得到的权重将通道注意力和空间注意力有机结合来强化对特征图中相关目标区域的关注度,同时弱化对不相关目标区域的关注度;其次,通过对模态标签进行统计分析,并使用所提出的相似度计算方法将相似度量化为0~1的数字以更精细地表示模态间的相似性。在4个常用的数据集MIRFLICKR-25K、NUS-WIDE、MSCOCO和IAPR TC-12上,当哈希码长度为16 bit时,与最先进的方法多标签语义保留哈希(MLSPH)相比,所提方法的检索平均准确率均值(mAP)分别提高了2.25%、1.75%、6.8%和2.15%。此外,消融实验和效率分析也证明了所提方法的有效性。  相似文献   

15.
代价敏感的列表排序算法   总被引:1,自引:0,他引:1  
排序学习是信息检索与机器学习中的研究热点之一.在信息检索中,预测排序列表中顶部排序非常重要.但是,排序学习中一类经典的排序算法——列表排序算法——无法强调预测排序列表中顶部排序.为了解决此问题,将代价敏感学习的思想融入到列表排序算法中,提出代价敏感的列表排序算法框架.该框架是在列表排序算法的损失函数中对文档引入权重,且基于性能评价指标NDCG计算文档的权重.在此基础之上,进一步证明了代价敏感的列表排序算法的损失函数是NDCG损失的上界.为了验证代价敏感的列表排序算法的有效性,在此框架下提出了一种代价敏感的ListMLE排序算法,并对该算法开展序保持与泛化性的理论研究工作,从理论上验证了该算法具有序保持特性.在基准数据集上的实验结果表明,在预测排序列表中顶部排序中,代价敏感的ListMLE比传统排序学习算法能取得更好的性能.  相似文献   

16.
高效检索是数字图书馆的核心业务之一,其中排序是高效信息检索的核心问题。给定一系列的书目列表,利用排序模型生成目标书目的排序列表。将学习排序算法应用于信息检索领域时,常用方法是通过最小化pairwise损失函数值来优化排序模型。然而,已有结论表明,pairwise损失值最小化不一定能得到listwise算法的最佳排序性能。并且将在线学习排序算法与listwise算法相结合也非常困难。提出了一种基于listwise的在线学习排序算法,旨在保证listwise算法性能优势的前提下,实现在线学习排序算法,从而降低检索复杂度。首先解决将在线学习排序算法与listwise算法相结合的问题;然后通过最小化基于预测列表和真实列表定义的损失函数来优化排序模型;最后提出基于online-listwise算法的自适应学习率。实验结果表明,所提出算法具有较好的检索性能和检索速度。  相似文献   

17.
基于术语相似度的贝叶斯网络检索模型扩展   总被引:2,自引:0,他引:2       下载免费PDF全文
徐建民  白彦霞  吴树芳 《计算机工程》2007,33(16):175-177,180
利用术语相似度将同义词间的相似程度数量化,以此量化关系对用于信息检索的简单贝叶斯网络进行改进,并进行有效的概率推理。实验结果表明新模型不仅具有良好的检索效果,而且相关文档的排序更加合理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号