首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
基于多模态概念关联图的视频检索   总被引:1,自引:0,他引:1  
为了有效地提高基于概念的视频检索的检索性能,提出一种新颖的基于多模态概念关联图的视频检索方法.首先通过分析查询与概念之间的组织关系得到网状关系模型描述,并基于该模型构建概念关联图;然后提出查询与概念的多模态映射结构,将多模态查询融入概念关联图,增强概念扩展的针对性;之后使用流形排序动态地扩展索引概念集;全局稳态后采用正交的概念融合方法计算视频索引值,用于视频检索.与多种典型的基于概念的视频检索方法相比,文中方法的平均检索精度增幅达14.6%~86.2%.此外,实验结果表明,该方法在实际的交互式视频检索系统中也具有良好的适用性.  相似文献   

2.
目的 多模态信息交叉检索的根本问题是多模态数据的特征表示。稀疏编码是一种有效的数据特征表示方法,但是当查询数据和被检索数据来自不同模态时,数据间存在分布差异,相似的特征可能被编码为差异显著的稀疏表示,此时传统稀疏编码便不再适用。为此,提出了一种基于稀疏编码的多模态信息交叉检索算法。方法 采用最大均值差异(MMD)以及图拉普拉斯,并将二者加入到稀疏编码的目标函数中来充分利用多模态信息进行编码,模型求解采用特征符号搜索和离散线搜索算法逐个更新稀疏编码系数。结果 在Wikipedia的文本图像对数据上进行实验,并与传统稀疏编码进行比较,实验结果表明,本文算法使交叉检索的平均准确率(MAP)提高了18.7%。结论 本文算法增强了稀疏表示的鲁棒性,提高了多模态交叉检索的准确率,更适用于对多模态数据进行特征提取,并进行进一步的操作,如交叉检索、分类等。  相似文献   

3.
张静  俞辉 《计算机应用》2008,28(1):199-201,
针对包含复杂语义信息的视频检索的需要,提出了一种基于关系代数的多模态信息融合视频检索模型,该模型充分利用视频包含的文本、图像、高层语义概念等多模态特征,构造了对应于多个视频特征的查询模块,并创新地使用关系代数表达式对查询得到的多模态信息进行融合。实验表明,该模型能够充分发挥多模型视频检索及基于关系代数表达式的融合策略在复杂语义视频检索中的优势,得到较好的查询结果。  相似文献   

4.
刘扬  郑逢斌  姜保庆  蔡坤 《计算机应用》2009,29(4):1182-1187
如何跨越低层特征描述到高层语义知识的“语义鸿沟”已成为跨媒体检索(CMR)问题的关键,提出一个基于多模态融合描述和时空上下文语义的跨媒体检索模型,对多模态融合的特征采用主成分分析(PCA)和独立成分分析(ICA)相结合的降维算法、采用基于支持向量机(SVM)和隐马尔可夫模型(HMM)的混合分类器进行语义映射,同时给出了时空模糊聚类分析方法和基于相关反馈的跨媒体检索算法。并在此基础上开发出基于该模型的原型系统,成功验证了该模型的可行性和正确性,可为相关系统的设计者提供思路。  相似文献   

5.
针对计算机辅助诊断中的相似病例查找,提出一种基于多图半监督学习模型的多模态信息检索算法.首先将医学影像和文本视为互为补偿的不同模态的信息,根据2种信息分别构建图模型,并定义多图融合的半监督学习框架;然后在融合图上进行流形排序,得到最终的病例检索结果.在乳腺X线影像数据库和肺部CT影像数据库上的实验结果表明,该算法能够有效地利用影像和文本信息进行病例检索,具有更好的检索性能.  相似文献   

6.
陈烨  周刚  卢记仓 《计算机应用研究》2021,38(12):3535-3543
为了总结前人工作,给相关研究者提供思路,首先讨论了当前多模态知识图谱的基本概念,然后从图数据库和知识图谱这两个角度介绍了多模态知识图谱的构建工作,并总结了两种主要方法的思路.还分析了多模态知识图谱的构建和应用中的关键技术和相关工作,如多模态信息提取、表示学习和实体链接.此外,列举了多模态知识图谱在四种场景中的应用,包括推荐系统、跨模态检索、人机交互和跨模态数据管理.最后,从四个方面展望了多模态知识图谱的发展前景.  相似文献   

7.
实现一个多模态图像检索系统,方便普通大众更快更准地查找所需要的图像或者所对应的信息.该系统具有一定的理解能力,可以根据语义概念进行检索,可以根据图像中某个感兴趣区域进行检索,也可以根据整幅图像进行检索.  相似文献   

8.
为了提高大数据中多模态信息的检索效果,提出一种基于深度神经网络的多模态信息检索算法。设计深度自编码器,将不同模态的数据投影到一个相同的广义子空间内;利用稀疏编码技术降低共同特征向量的维度,过滤冗余特征和噪声特征;通过去卷积操作和上采样操作对数据进行重建。基于公开模态识别数据集的实验结果表明,该算法能够有效地学习和泛化多模态数据,且在多模态检索实验中也表现出较好的性能。  相似文献   

9.
随着计算机与大数据技术在医学领域中的迅速应用以及医疗信息存储标准的逐渐完善,医学数据呈爆炸式增长。医学数据由于其自身特点而呈现出多模态形式,且这些多模态数据往往同时出现、互相补充,因此实现多模态数据间的相互检索具有重要的临床价值。回顾了近年来多模态检索在医学领域的实现方法,将其归纳为基于文本、基于内容以及基于融合信息的多模态检索,基于内容的多模态检索可进一步划分为基于传统特征的检索和基于深度特征的检索。针对多模态检索算法的性能,介绍了准确率、召回率以及平均精度均值等常用的评价指标。分析了当前医学领域多模态检索所面临的挑战,并对未来医学领域多模态检索的研究发展进行了展望。  相似文献   

10.
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F3模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F3  相似文献   

11.
提出和实现了一个面向多媒体文档的多通道(对应多种模态,如文本、图像、视频等)检索系统.系统定义了一个新的用来描述多媒体文档内容的框架,该框架不但提取出多媒体文档在各通道下的基于内容的底层特征,而且还记录下多媒体文档中不同多媒体对象间的链接关系.同时,提出一种基于图模型的交叉参照知识库,用来存储从链接关系中挖掘出的多媒体对象间的语义关系,通过一个有效的语义上下文分析算法,在检索过程中计算每个对象与查询的语义相似度.语义上下文分析算法不仅使得基于内容的多媒体信息检索中考虑了多媒体对象的语义信息,同时支持用户通过通道切换的方式进行相关反馈,提供了一种较为灵活的查询模式.实验表明在交叉参照知识库基础上,该系统还能够有效地提高基于内容的多媒体对象的检索性能(如内容覆盖率等).  相似文献   

12.
基于语义学习的图像多模态检索   总被引:1,自引:0,他引:1       下载免费PDF全文
针对语义鸿沟问题,在语义学习的基础上设计图像的多模态检索系统。该系统结合3种查询方式进行图像检索。基于视觉特征的查询通过特征提取与相似度匹配进行排位。基于标签的查询建立在图像自动标注的基础上,但在语义空间之外的泛化能力较差。基于语义图例的查询能够在很大程度上克服这个缺陷,通过在显式或隐式的语义空间上进行查询,使检索结果更符合人类感知。实验结果表明,与基于纹理特征的图像检索相比,基于语义图例的检索具有更高的精度及召回率。  相似文献   

13.
This paper addresses automatic image annotation problem and its application to multi-modal image retrieval. The contribution of our work is three-fold. (1) We propose a probabilistic semantic model in which the visual features and the textual words are connected via a hidden layer which constitutes the semantic concepts to be discovered to explicitly exploit the synergy among the modalities. (2) The association of visual features and textual words is determined in a Bayesian framework such that the confidence of the association can be provided. (3) Extensive evaluation on a large-scale, visually and semantically diverse image collection crawled from Web is reported to evaluate the prototype system based on the model. In the proposed probabilistic model, a hidden concept layer which connects the visual feature and the word layer is discovered by fitting a generative model to the training image and annotation words through an Expectation-Maximization (EM) based iterative learning procedure. The evaluation of the prototype system on 17,000 images and 7736 automatically extracted annotation words from crawled Web pages for multi-modal image retrieval has indicated that the proposed semantic model and the developed Bayesian framework are superior to a state-of-the-art peer system in the literature.  相似文献   

14.
Ontologies have been intensively applied for improving multimedia search and retrieval by providing explicit meaning to visual content. Several multimedia ontologies have been recently proposed as knowledge models suitable for narrowing the well known semantic gap and for enabling the semantic interpretation of images. Since these ontologies have been created in different application contexts, establishing links between them, a task known as ontology matching, promises to fully unlock their potential in support of multimedia search and retrieval. This paper proposes and compares empirically two extensional ontology matching techniques applied to an important semantic image retrieval issue: automatically associating common-sense knowledge to multimedia concepts. First, we extend a previously introduced textual concept matching approach to use both textual and visual representation of images. In addition, a novel matching technique based on a multi-modal graph is proposed. We argue that the textual and visual modalities have to be seen as complementary rather than as exclusive sources of extensional information in order to improve the efficiency of the application of an ontology matching approach in the multimedia domain. An experimental evaluation is included in the paper.  相似文献   

15.
深度跨模态哈希算法(deep cross-modal Hash,DCMH)可以结合哈希算法存储成本低、检索速度快的优点,以及深度神经网络提取特征的强大能力,得到了越来越多的关注。它可以有效地将模态的特征和哈希表示学习集成到端到端框架中。然而在现有的DCMH方法的特征提取中,基于全局表示对齐的方法无法准确定位图像和文本中有语义意义的部分,导致在保证检索速度的同时无法保证检索的精确度。针对上述问题,提出了一种基于多模态注意力机制的跨模态哈希网络(HX_MAN),将注意力机制引入到DCMH方法中来提取不同模态的关键信息。利用深度学习来提取图像和文本模态的全局上下文特征,并且设计了一种多模态交互门来将图像和文本模态进行细粒度的交互,引入多模态注意力机制来更精确地捕捉不同模态内的局部特征信息,将带有注意的特征输入哈希模块以获得二进制的哈希码;在实行检索时,将任一模态的数据输入训练模块中来获得哈希码,计算该哈希码与检索库中哈希码的汉明距离,最终根据汉明距离按顺序输出另一种模态的数据结果。实验结果表明:HX_MAN模型与当前现有的DCMH方法相比更具有良好的检索性能,在保证检索速度的同时,能够更准确地提炼出图像和文本模态的局部细粒度特征,提高了检索的精确度。  相似文献   

16.
香山文化的内涵包含多种元素,内容极其丰富,但是相关研究孤立分散主要原因在于缺乏系统性的信息组织.在概述知识图谱信息组织应用基础之上,提出基于知识图谱的香山文化信息组织思路.利用骨架法构建了基于本体的香山文化知识图谱,建立了香山文化分散研究要点之间的关联.基于知识图谱的香山文化检索系统通过可视化方式展现香山文化中复杂的知识点和知识关系,勾勒出香山文化总体轮廓.基于知识图谱的信息组织在处理领域复杂关系的分析与挖掘上有一定优势,知识图谱检索系统可视化模式丰富多彩、特色鲜明.  相似文献   

17.
李丽萍  赵传荣  孔德仁  王芳 《计算机科学》2017,44(7):315-317, 323
为了改善基于内容的遥感图像检索技术,以遥感图像区域检索为框架,提出了一种新的基于图论的无监督学习遥感图像检索算法。首先,提出的方法 用图表为每一幅图像建模,同时结合局部信息和相关的空间结构,提供基于区域的图像代表。将每一幅图像初步划分为不同的区域,再通过属性关系图建模,节点和边界分别代表区域特征和它们之间存在的空间关系。然后,通过评估基于图像的相似点实现最相似于查询图像的图像检索。为匹配相应的图像以及按照图像相似点实现图像检索,采用了结合子图同构算法和光谱图嵌入技术的新型非精确图像匹配策略。实验结果显示,与其他两种无监督遥感图像检索方法相比,所提方法的检索性能明显改善。  相似文献   

18.
By introducing the concept detection results to the retrieval process, concept-based video retrieval (CBVR) has been successfully used for semantic content-based video retrieval application. However, how to select and fuse the appropriate concepts for a specific query is still an important but difficult issue. In this paper, we propose a novel and effective concept selection method, named graph-based multi-space semantic correlation propagation (GMSSCP), to explore the relationship between the user query and concepts for video retrieval application. Compared with traditional methods, GMSSCP makes use of a manifold-ranking algorithm to collectively explore the multi-layered relationships between the query and concepts, and the expansion result is more robust to noises. Parallel to this, GMSSCP has a query-adapting property, which can enhance the process of concept correlation propagation and selection with strong pertinence of query cues. Furthermore, it can dynamically update the unified propagation graph by flexibly introducing the multi-modal query cues as additional nodes, and is not only effective for automatic retrieval but also appropriate for the interactive case. Encouraging experimental results on TRECVID datasets demonstrate the effectiveness of GMSSCP over the state-of-the-art concept selection methods. Moreover, we also apply it to the interactive retrieval system??VideoMap and gain an excellent performance and user experience.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号