首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
近年来,随着深度学习技术在计算机视觉和自然语言处理领域取得不断成功,越来越多的学者开始致力于推动计算机视觉和自然语言处理的交叉领域——多模态图像描述的研究进展。现对多模态图像描述任务进行了文献综述,从图像描述方法的发展与分类、常用数据集和评价指标三个方面对该领域进行介绍,对不同方法的优缺点进行了总结,并将不同方法的代表模型在相同数据集上的表现进行比对。最后,对图像描述任务当前面临的挑战和未来发展方向进行展望。  相似文献   

2.
张博  郝杰  马刚  史忠植 《软件学报》2017,28(2):292-309
针对弱匹配多模态数据的相关性建模问题,提出了一种弱匹配概率典型相关性分析模型(semi-paired probabilistic CCA,简称SemiPCCA).SemiPCCA模型关注于各模态内部的全局结构,模型参数的估计受到了未匹配样本的影响,而未匹配样本则揭示了各模态样本空间的全局结构.在人工弱匹配多模态数据集上的实验结果表明,SemiPCCA可以有效地解决传统CCA(canonical correlation analysis)和PCCA(probabilistic CCA)在匹配样本不足的情况下出现的过拟合问题,取得了较好的效果.提出了一种基于SemiPCCA的图像自动标注方法.该方法基于关联建模的思想,同时使用标注图像及其关键词和未标注图像学习视觉模态和文本模态之间的关联,从而能够更准确地对未知图像进行标注.  相似文献   

3.
在深度学习领域,解决实际应用问题往往需要结合多种模态信息进行推理和决策,其中视觉和语言信息是交互过程中重要的两种模态。在诸多应用场景中,处理多模态任务往往面临着模型架构组织方式庞杂、训练方法效率低下等问题。综合以上问题,梳理了在图像文本多模态领域的近五年的代表性成果。首先从主流的多模态任务出发,介绍了相关文本和图像多模态数据集以及预训练目标。其次,考虑以Transformer为基础结构的视觉语言模型,结合特征提取方法,从多模态组织架构、跨模态融合方法等角度进行分析,总结比较不同处理策略的共性和差异性。然后从数据输入、结构组件等多角度介绍模型的轻量化方法。最后,对基于图像文本的多模态方法未来的研究方向进行了展望。  相似文献   

4.
模态是指人接收信息的方式,包括听觉、视觉、嗅觉、触觉等多种方式。多模态学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习的目的是建立能够处理和关联来自多种模式信息的模型,它是一个充满活力的多学科领域,具有日益重要和巨大的潜力。目前比较热门的研究方向是图像、视频、音频、文本之间的多模态学习。着重介绍了多模态在视听语音识别、图文情感分析、协同标注等实际层面的应用,以及在匹配和分类、对齐表示学习等核心层面的应用,并针对多模态学习的核心问题:匹配和分类、对齐表示学习方面给出了说明。对多模态学习中常用的数据集进行了介绍,并展望了未来多模态学习的发展趋势。  相似文献   

5.
张天明  张杉  刘曦  曹斌  范菁 《软件学报》2024,35(3):1107-1124
作为自然语言处理领域的关键子任务,命名实体识别通过提取文本中的关键信息,帮助机器翻译、文本生成、知识图谱构建以及多模态数据融合等许多下游任务深度理解文本蕴含的复杂语义信息,有效地完成任务.在实际生活中,由于时间和人力等成本问题,命名实体识别任务常常受限于标注样本的稀缺.尽管基于文本的小样本命名实体识别方法已取得较好的泛化表现,但由于样本量有限,使得模型能提取的语义信息也十分受限,进而导致模型预测效果依然不佳.针对标注样本稀缺给基于文本的小样本命名实体识别方法带来的挑战,提出了一种融合多模态数据的小样本命名实体识别模型,借助多模态数据提供额外语义信息,帮助模型提升预测效果,进而可以有效提升多模态数据融合、建模效果.该方法将图像信息转化为文本信息作为辅助模态信息,有效地解决了由文本与图像蕴含语义信息粒度不一致导致的模态对齐效果不佳的问题.为了有效地考虑实体识别中的标签依赖关系,使用CRF框架并使用最先进的元学习方法分别作为发射模块和转移模块.为了缓解辅助模态中的噪声样本对模型的负面影响,提出一种基于元学习的通用去噪网络.该去噪网络在数据量十分有限的情况下,依然可以有效地评估辅助模态中不同样...  相似文献   

6.
深度学习中多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等. 然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针对性地选择最有信息价值的样本进行标注,从而降低标注成本并提高模型性能. 现有的主动学习方法往往面临着低效的数据扫描和数据位置调整问题,当索引需要进行大范围的更新时,会带来巨大的维护代价. 为解决这些问题,本文提出了一种面向多模态模型训练的高效样本检索技术So-CBI. 该方法通过感知模型训练类间边界点,精确评估样本对模型的价值;并设计了半有序的高效样本索引,通过结合数据排序信息和部分有序性,降低了索引维护代价和时间开销. 在多组多模态数据集上通过与传统主动学习训练方法实验对比,验证了So-CBI方法在主动学习下的训练样本检索问题上的有效性.  相似文献   

7.
红外和可见光图像的融合可以获得更为全面、丰富的信息.由于没有真实融合图像作参考,现有的融合图像数据集缺少融合图像作为监督条件,基于监督学习的训练方法无法应用于图像融合,现有的融合网络都是尽可能地在两个模态间找到平衡,因此提出一种基于环境光传输模型的多模态图像合成方法.基于NYU-Depth有标签数据集和其深度标注信息合...  相似文献   

8.
超声图像的乳腺癌自动诊断具有重要的临床价值。然而,由于缺乏大量人工标注数据,构建高精度的自动诊断方法极具挑战。近年来,自监督对比学习在利用无标签自然图像产生具有辨别性和高度泛化性的特征方面展现出巨大潜力。然而,采用自然图像构建正负样本的方法在乳腺超声领域并不适用。为此,本文引入超声弹性图像(elastography ultrasound, EUS),利用超声图像的多模态特性,提出一种融合多模态信息的自监督对比学习方法。该方法采用同一病人的多模态超声图像构造正样本;采用不同病人的多模态超声图像构建负样本;基于模态一致性、旋转不变性和样本分离性来构建对比学习的目标学习准则。通过在嵌入空间中学习两种模态的统一特征表示,从而将EUS信息融入模型,提高了模型在下游B型超声分类任务中的表现。实验结果表明本文提出的方法能够在无标签的情况下充分挖掘多模态乳腺超声图像中的高阶语义特征,有效提高乳腺癌的诊断正确率。  相似文献   

9.
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。  相似文献   

10.
视觉自动问答技术是一个新兴的多模态学习任务,它联系了图像内容理解和文本语义推理,针对图像和问题给出对应的回答.该技术涉及多种模态交互,对视觉感知和文本语义学习有较高的要求,受到了广泛的关注.然而,视觉自动问答模型的训练对数据集的要求较高.它需要多种多样的问题模式和大量的相似场景不同答案的问题答案标注,以保证模型的鲁棒性和不同模态下的泛化能力.而标注视觉自动问答数据需要花费大量的人力物力,高昂的成本成为制约该领域发展的瓶颈.针对这个问题,本文提出了基于跨模态特征对比学习的视觉问答主动学习方法(CCRL).该方法从尽可能覆盖更多的问题类型和尽可能获取更平衡的问题分布两方面出发,设计了视觉问题匹配评价(VQME)模块和视觉答案不确定度度量(VAUE)模块.视觉问题评价模块使用了互信息和对比预测编码作为自监督学习的约束,学习视觉模态和问题模式的匹配关系.视觉答案不确定性模块引入了标注状态学习模块,自适应地选择匹配的问题模式并学习跨模态问答语义关联,通过答案项的概率分布评估样本不确定度,寻找最有价值的未标注样本进行标注.在实验部分,本文在视觉问答数据集VQA-v2上将CCRL和其他最新的主动学习...  相似文献   

11.
潘雪玲  李国和  郑艺峰 《计算机应用研究》2023,40(10):2881-2888+2895
深度学习以数据为驱动,被广泛应用于各个领域,但由于数据隐私、标记昂贵等导致样本少、数据不完备性等问题,同时小样本难于准确地表示数据分布,使得分类模型误差较大,且泛化能力差。为此,小样本学习被提出,旨在利用较少目标数据训练模型快速学习的能力。系统梳理了近几年来小样本学习领域的相关工作,主要整理和总结了基于数据增强、基于元学习和基于转导图小样本学习方法的研究进展。首先,从基于监督增强和基于无监督增强阐述数据增强的主要特点。其次,从基于度量学习和基于参数优化两方面对基于元学习的方法进行分析。接着,详细总结转导图小样本学习方法,介绍常用的小样本数据集,并通过实验阐述分析具有代表性的小样本学习模型。最后总结现有方法的局限性,并对小样本学习的未来研究方向进行展望。  相似文献   

12.
陈嘉言  任东东  李文斌  霍静  高阳 《软件学报》2024,35(5):2414-2429
小样本学习旨在模拟人类基于少数样例快速学习新事物的能力, 对解决样本匮乏情境下的深度学习任务具有重要意义. 但是, 在诸多计算资源有限的现实任务中, 模型规模仍可能限制小样本学习的广泛应用. 这对面向小样本学习的轻量化任务提出了现实的需求. 知识蒸馏作为深度学习领域广泛使用的辅助策略, 通过额外的监督信息实现模型间知识迁移, 在提升模型精度和压缩模型规模方面都有实际应用. 首先验证知识蒸馏策略在小样本学习模型轻量化中的有效性. 并结合小样本学习任务的特点, 针对性地设计两种新的小样本蒸馏方法: (1)基于图像局部特征的蒸馏方法; (2)基于辅助分类器的蒸馏方法. 在miniImageNet和TieredImageNet数据集上的相关实验证明所设计的新的蒸馏方法相较于传统知识蒸馏在小样本学习任务上具有显著优越性.  相似文献   

13.
随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求,如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构,总结了三个常见的融合模型,简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面,对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题,并提出未来的研究方向。  相似文献   

14.
小样本学习是面向小样本数据的机器学习,旨在利用较少的有监督样本数据去构建能够解决实际问题的机器学习模型。小样本学习能够解决传统机器学习方法在样本数据不充分时性能严重下降的问题,可以为新型小样本任务实现低成本和快速的模型部署,缩小人类智能与人工智能之间的距离,对推动发展通用型人工智能具有重要意义。从小样本学习的概念、基础模型和实际应用入手,系统梳理当前小样本学习的相关工作,将小样本学习方法分类为基于模型微调、基于数据增强、基于度量学习和基于元学习,并具体阐述这4大类方法的核心思想、基本模型、细分领域和最新研究进展,以及每一类方法在科学研究或实际应用中存在的问题,总结目前小样本学习研究的常用数据集和评价指标,整理基于部分典型小样本学习方法在Omniglot和Mini-ImageNet数据集上的实验结果。最后对各种小样本学习方法及其优缺点进行总结,分别从数据层面、理论研究和应用研究3个方面对小样本学习的未来研究方向进行展望。  相似文献   

15.
针对多模态数据查询和基于模式之间低阶关系的查询方法存在的局限性,提出一种基于高阶模式之间关系的跨模态关联学习模型。在超网络的基础上,构建一种具有层次结构的分层超网络模型,由超网络数目等于模式数目的模式层和代表几种模式之间关系的集成层构成;经过训练的分层超网络就可以通过跨模态关联推理生成对于给定多模态查询的文本术语和视觉词关键字,实现多模态查询。基于大量带有图像文章的实验结果表明,提出模型可以提高生成关键字的相似性,生成文本术语,成功检索出具有小部分信息的文章。  相似文献   

16.
As a crucial subtask in Natural Language Processing (NLP), Named Entity Recognition (NER) aims to extract import information from text, which can help many downstream tasks such as machine translation, text generation, knowledge graph construction, and multimodal data fusion to deeply understand the complex semantic information of the text and effectively complete these tasks. In practice, due to time and labor costs, NER suffers from annotated data scarcity, known as few-shot NER. Although few-shot NER methods based on text have achieved good generalization performance, the semantic information that the model can extract is still limited due to the few samples, which leads to the poor prediction effect of the model. To this end, in this paper we propose a few-shot NER model based on multimodal data fusion, which provides additional semantic information with multimodal data for the first time, to help the model prediction and can further effectively improve the effect of multimodal data fusion and modeling. This method converts image information into text information as auxiliary modality information, which effectively solves the problem of poor modality alignment caused by the inconsistent granularity of semantic information contained in text and images. In order to effectively consider the label dependencies in few-shot NER, we use the CRF framework and introduce the state-of-the-art meta-learning methods as the emission module and the transition module. To alleviate the negative impact of noise samples in the auxiliary modal samples, we propose a general denoising network based on the idea of meta-learning. The denoising network can measure the variability of the samples and evaluate the beneficial extent of each sample to the model. Finally, we conduct extensive experiments on real unimodal and multimodal datasets. The experimental results show the outstanding generalization performance of the proposed method, where our method outperforms the state-of-the-art methods by 10 F1 scores in the 1-shot scenario.  相似文献   

17.
关系分类作为构建结构化知识的重要一环,在自然语言处理领域备受关注.但在很多应用领域中(如医疗、金融等领域)收集充足的用于训练关系分类模型的数据十分困难.近年来,仅需要少量训练样本的小样本学习逐渐应用于关系分类研究中.该文对近期小样本关系分类模型与方法进行了系统的综述.根据度量方法的不同,将现有方法分为原型式和分布式两大...  相似文献   

18.
吕天根  洪日昌  何军  胡社教 《软件学报》2023,34(5):2068-2082
深度学习模型取得了令人瞩目的成绩,但其训练依赖于大量的标注样本,在标注样本匮乏的场景下模型表现不尽人意.针对这一问题,近年来以研究如何从少量样本快速学习的小样本学习被提了出来,方法主要采用元学习方式对模型进行训练,取得了不错的学习效果.但现有方法:1)通常仅基于样本的视觉特征来识别新类别,信息源较为单一; 2)元学习的使用使得模型从大量相似的小样本任务中学习通用的、可迁移的知识,不可避免地导致模型特征空间趋于一般化,存在样本特征表达不充分、不准确的问题.为解决上述问题,将预训练技术和多模态学习技术引入小样本学习过程,提出基于多模态引导的局部特征选择小样本学习方法.所提方法首先在包含大量样本的已知类别上进行模型预训练,旨在提升模型的特征表达能力;而后在元学习阶段,方法利用元学习对模型进行进一步优化,旨在提升模型的迁移能力或对小样本环境的适应能力,所提方法同时基于样本的视觉特征和文本特征进行局部特征选择来提升样本特征的表达能力,以避免元学习过程中模型特征表达能力的大幅下降;最后所提方法利用选择后的样本特征进行小样本学习.在MiniImageNet、CIFAR-FS和FC-100这3个基准数...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号