首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
近年来,各种类型的媒体数据,如音频、文本、图像和视频,在互联网上呈现爆发式增长,不同类型的数据通常用于描述同一事件或主题。跨模态检索提供了一些有效的方法,可以为任何模态的给定查询搜索不同模态的语义相关结果,使用户能够获得有关事件/主题的更多信息,从而达到以一种模态数据检索另外一种模态数据的效果。随着数据检索需求以及各种新技术的发展,单一模态检索难以满足用户需求,研究者提出许多跨模态检索的技术来解决这个问题。梳理近期跨模态检索领域研究者的研究成果,简要分析传统的跨模态检索方法,着重介绍近五年研究者提出跨模态检索方法,并对其性能表现进行对比;总结现阶段跨模态检索研究过程中面临的问题,并对后续发展做出展望。  相似文献   

2.
多媒体数据持续呈现爆发式增长并显现出异源异构的特性,因此跨模态学习领域研究逐渐引起学术和工业界的关注。跨模态表征与生成是跨模态学习的两大核心基础问题。跨模态表征旨在利用多种模态之间的互补性剔除模态之间的冗余,从而获得更为有效的特征表示;跨模态生成则是基于模态之间的语义一致性,实现不同模态数据形式上的相互转换,有助于提高不同模态间的迁移能力。本文系统地分析了国际与国内近年来跨模态表征与生成领域的重要研究进展,包括传统跨模态表征学习、多模态大模型表示学习、图像到文本的跨模态转换和跨模态图像生成。其中,传统跨模态表征学习探讨了跨模态统一表征和跨模态协同表征,多模态大模型表示学习探讨了基于Transformer的模型研究,图像到文本的跨模态转换探讨了图像视频的语义描述、视频字幕语义分析和视觉问答等领域的发展,跨模态图像生成从不同模态信息的跨模态联合表示方法、图像的跨模态生成技术和基于预训练的特定域图像生成阐述了跨模态生成方面的进展。本文详细综述了上述各个子领域研究的挑战性,对比了国内外研究方面的进展情况,梳理了发展脉络和学术研究的前沿动态。最后,根据上述分析展望了跨模态表征与生成的发展趋势和突破口。  相似文献   

3.
跨模态检索可以通过一种模态检索出其他模态的信息,已经成为大数据时代的研究热点。研究者基于实值表示和二进制表示两种方法来减小不同模态信息的语义差距并进行有效的相似度对比,但仍会有检索效率低或信息丢失的问题。目前,如何进一步提高检索效率和信息利用率是跨模态检索研究面临的关键挑战。介绍了跨模态检索研究中基于实值表示和二进制表示两种方法的发展现状;分析对比了包含两种表示技术下以建模技术和相似性对比为主线的五种跨模态检索方法:子空间学习、主题统计模型学习、深度学习、传统哈希和深度哈希;对最新的多模态数据集进行总结,为相关的研究和工程人员提供有价值的参考资料;分析了跨模态检索面临的挑战并指出了该领域未来研究方向。  相似文献   

4.
在DMN的基础上提出一种跨模态目标实例分割方法,旨在结合自然语言表达,利用不同模态信息从图像中分割所描述对象。在视觉特征提取网络DPN92中引入CBAM注意力机制,关注空间和通道上的有用信息;将BN层替换为联合BN和FRN的正则化,减少批次量和通道数对提取特征网络性能的影响,提高网络的泛化能力;在三个通用数据集ReferIt、GRef和UNC上进行仿真实验。实验结果显示,提出的引入CBAM注意力机制和联合正则化改进模型在mIou评价指标上,ReferIt和GRef上分别提升了1.85和0.52个百分点,在UNC三个验证集上分别提升了1.98、2.22和2.75个百分点。表明改进模型在预测准确度方面优于已有模型。  相似文献   

5.
随着互联网上多媒体数据的爆炸式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生.跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据,其核心任务是数据特征提取和不同模态间数据的相关性度量.文中梳理了跨模态检索领域近期的研究进展,从传统方法、深度学习方法、手工特征的哈希编码方法以及深度学习的哈希编码方法等...  相似文献   

6.
纪冲  刘岩 《计算机仿真》2021,(3):380-383,418
为解决传统方法关联误差较高,影响检索结果的准确性的问题,提出基于无监督深度学习的跨模态数据目标检索方法,利用各层自编码器及其参数,得到自编码器的编码,通过对编码的逐层初始化策略,对栈式自编码神经网络实施初始化处理,并将隐含层神经单元激活状态作为下一层级的输入,初始化对应层网络参数,采用逐层初始化与整体反馈策略,训练基本...  相似文献   

7.
深度学习的快速发展和关联学习的深度研究,使得跨模态检索的性能有了很大提升.跨模态检索研究面临的挑战是:不同模态的数据在高层语义上具有关联关系,但在底层特征上存在异构鸿沟.现有方法主要通过单个相关性约束将不同模态的特征映射到具有一定相关性的特征空间中来解决底层特征上的异构鸿沟问题.然而,表征学习表明,不同层次的特征在帮助模型最终性能的提升上都会起作用.所以,现有方法学习到的单一特征空间的关联性是弱的,即该特征空间可能不是最优的检索空间.为解决该问题,提出了基于关联特征传播的跨模态检索模型,其基本思想是强化深度网络各层之间的关联性,即前一层具有一定关联的特征经过非线性变化传到后一层,有利于找到使2种模态关联性更强的特征空间.通过在Wikipedia,Pascal数据集上的大量实验验证得到,该方法提升了平均精度均值.  相似文献   

8.
跨模态检索是可由一个模态样本查询能够返回另一模态语义相关结果的检索方法.但是在许多实际检索系统中,新数据是不断增量迭代的,这就要求检索模型具有良好的可扩展性.然而当下的大多数跨模态检索方法未聚焦于可扩展性的研究,无法平衡新知识和旧知识之间的关系.针对跨模态检索中存在的这个问题,本文提出了增量跨模态检索方法(Increm...  相似文献   

9.
随着互联网技术的迅速发展,文本和图像等各种类型的数据在网络上呈现爆发式增长,如何从这些多源异构且语义关联的多模态数据中获取有价值的信息则尤为重要。跨模态检索能够突破模态的限制,跨越不同模态的数据进行信息检索,满足用户获取有关事件信息的需求。近年来,跨模态检索已经成为了学术界和工业界研究的热点问题。本文聚焦于图文跨模态检索任务,首先介绍图文跨模态检索的定义,并分析说明了当前该任务面临的挑战。其次,对现有的研究方法进行归纳总结,将其分为3大类:(1)传统方法;(2)基于深度学习的方法;(3)基于哈希表示的方法。然后,详细介绍了图文跨模态检索的常用数据集,并对常用数据集上已有算法进行详细分析与比较。最后,对图文跨模态检索任务的未来发展方向进行展望。  相似文献   

10.
由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。  相似文献   

11.
Very large knowledge bases constitute an important step for artificial intelligence and will have significant effects on the field of natural language processing. This paper describes LUKE, a tool that allows a knowledge base builder to create an English language interface by associating words and phrases with knowledge base entities. The philosophy behind LUKE is that knowledge about language is built up at the same time as knowledge about the world. LUKE assumes no linguistic expertise on the part of the user—that expertise is built directly into the tool itself. LUKE draws its power from a large set of heuristics about how words are typically used to describe the world.This research was supported in part by the National Science Foundation under contract IRI-8858085.  相似文献   

12.
单任务学习常常受限于单目标函数的不足,多任务学习能有效利用任务相关性的先验性,故而受到了学界的关注.在中文自然语言处理领域,关于多任务学习的研究极为匮乏,该领域需同时考虑到中文文本特征提取和多任务的建模.本论文提出了一种多任务学习模型MTL-BERT.首先将BERT作为特征提取器以提升模型的泛化性.其次分类和回归是机器...  相似文献   

13.
文本分类是自然语言处理的一个重要领域.近年来,深度学习的方法被广泛应用于文本分类任务中.在处理大规模的数据时,为了兼顾分类的精度和处理效率,本文使用BERT训练词向量作为嵌入层,进一步优化输入语句的词向量,然后用双层的GRU网络作为主体网络,充分提取文本的上下文特征,最后使用注意力机制,将目标语句重点突出,进行文本分类...  相似文献   

14.
15.
属性抽取是一种自动识别和提取属性表述文字的自然语言处理任务.首先重温了属性抽取的基本任务、权威数据资源和通用评测规范,并在此基础上全面回顾了现有前沿技术,包括基于统计策略和特征工程的传统抽取技术以及利用深度学习的神经抽取技术.特别地,以属性表述语言的本质为出发点,结合现有技术暴露出的不足,对该领域的技术难点和推演方向给出了详细解释.  相似文献   

16.
A central problem of many branches of artificial intelligence (AI) research is that ofunderstanding natural language (NL). Many attempts have been made to model understanding with computer systems that demonstrate competence at such tasks as question answering, paraphrasing, and following commands. The system to be described in this paper combines some of these language functions in a single, general process based on the creation of an associative memory net as a result of experience. The author has written a large, interactive computer program that accepts unsegmented input strings of natural language from a human trainer and, after processing each string, outputs a natural language response. The processing of the string may involve transforming it to some other form in the same or another language, or answering an input question based on information previously learned by the program.  相似文献   

17.
This article describes the natural language processing techniques used in two computer-assisted language instruction programs: VERBCON and PARSER. VERBCON is a template-type program which teaches students how to use English verb forms in written texts. In the exercises verbs have been put into the infinitive, and students are required to supply appropriate verb forms. PARSER is intended to help students learn English sentence structure. Using a lexicon and production rules, it generates sentences and asks students to identify their grammatical parts. The article contends that only by incorporating natural language processing techniques can these programs offer a substantial number of exercises and at the same time provide students with informative feedback. Alan Bailin is director of the Effective Writing Program at the University of Western Ontario, London, Ontario, Canada. Philip Thomson is a programmer in the Faculty of Medecine, University of Western Ontario.  相似文献   

18.
命名实体识别技术是信息抽取、机器翻译、问答系统等多种自然语言处理技术中一项重要的基本任务.近年来,基于深度学习的命名实体识别技术成为一大研究热点.为了方便研究者们了解基于深度学习的命名实体识别研究进展及未来发展趋势,对当前基于卷积神经网络、循环神经网络、transformer模型以及其他一些命名实体识别方法展开综述性介...  相似文献   

19.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间.介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果.介绍了多标签文本分类的方法.这些方法主要分为两大类:传统机器...  相似文献   

20.
基于深度学习的语言模型研究进展   总被引:1,自引:0,他引:1  
王乃钰  叶育鑫  刘露  凤丽洲  包铁  彭涛 《软件学报》2021,32(4):1082-1115
语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号