首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。  相似文献   

2.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。  相似文献   

3.
在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。  相似文献   

4.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,...  相似文献   

5.
杨杨  詹德川  姜远  熊辉 《软件学报》2021,32(4):1067-1081
近年来,多模态学习逐步成为机器学习、数据挖掘领域的研究热点之一,并成功地应用于诸多现实场景中,如跨媒介搜索、多语言处理、辅助信息点击率预估等.传统多模态学习方法通常利用模态间的一致性或互补性设计相应的损失函数或正则化项进行联合训练,进而提升单模态及集成的性能.而在开放环境下,受数据缺失及噪声等因素的影响,多模态数据呈现...  相似文献   

6.
随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛.不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据.多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合.自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息.面对保...  相似文献   

7.
行为识别是通过对视频数据进行处理分析从而让计算机理解人的动作和行为.不同模态数据在外观、姿态、几何、光照和视角等主要特征上各有优势,通过多模态融合将这些特征进行融合可以获得比单一模态数据更好的识别效果.本文对现有行为识别多模态融合方法进行介绍,对比了它们之间的特点以及获得的性能提升,包括预测分数融合、注意力机制、知识蒸馏等晚期融合方法,以及特征图融合、卷积、融合结构搜索、注意力机制等早期融合方法.通过这些分析和比较归纳出未来多模态融合的研究方向.  相似文献   

8.
窦猛  陈哲彬  王辛  周继陶  姚宇 《计算机应用》2023,(11):3385-3395
多模态医学图像可以为临床医生提供靶区(如肿瘤、器官或组织)的丰富信息。然而,由于多模态图像之间相互独立且仅有互补性,如何有效融合多模态图像并进行分割仍是亟待解决的问题。传统的图像融合方法难以有效解决此问题,因此基于深度学习的多模态医学图像分割算法得到了广泛的研究。从原理、技术、问题及展望等方面对基于深度学习的多模态医学图像分割任务进行了综述。首先,介绍了深度学习与多模态医学图像分割的一般理论,包括深度学习与卷积神经网络(CNN)的基本原理与发展历程,以及多模态医学图像分割任务的重要性;其次,介绍了多模态医学图像分割的关键概念,包括数据维度、预处理、数据增强、损失函数以及后处理等;接着,对基于不同融合策略的多模态分割网络进行综述,对不同方式的融合策略进行分析;最后,对医学图像分割过程中常见的几个问题进行探讨,并对今后研究作了总结与展望。  相似文献   

9.
面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能,而模态的普遍性和深度学习的热度促进了多模态融合技术的发展。在多模态融合技术发展前期,以提升深度学习模型分类与回归性能为出发点,阐述多模态融合架构、融合方法和对齐技术。重点分析联合、协同、编解码器3种融合架构在深度学习中的应用情况与优缺点,以及多核学习、图像模型和神经网络等具体融合方法与对齐技术,在此基础上归纳多模态融合研究的常用公开数据集,并对跨模态转移学习、模态语义冲突消解、多模态组合评价等下一步的研究方向进行展望。  相似文献   

10.
我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法....  相似文献   

11.
在当前视频多模态情感分析研究中, 存在着未充分考虑模态之间的动态独立性和模态融合缺乏信息流控制的问题. 为解决这些问题, 本文提出了一种结合模态表征学习的多模态情感分析模型. 首先, 通过使用BERT和LSTM分别挖掘文本、音频和视频的内在信息, 其次, 引入模态表征学习, 以获得更具信息丰富性的单模态特征. 在模态融合阶段, 融合了门控机制, 对传统的Transformer融合机制进行改进, 以更精确地控制信息流. 在公开数据集CMU-MOSI和CMU-MOSEI的实验结果表明, 与传统模型相比, 准确性和F1分数都有所提升, 验证了模型的有效性.  相似文献   

12.
代码表征是对代码数值化的一种技术,把代码映射为一组连续的实值向量,提取隐藏在代码内部的属性,辅助程序员生成或分析代码,是代码克隆、代码推荐、代码剽窃等软件工程任务的核心技术和研究热点。研究者们对代码表征方面进行了一系列研究,根据源代码抽取信息的方式,分为基于文本的表征、基于语法的表征、基于语义的表征和基于功能的表征;根据表征粒度的大小,分为基于词汇的表征、基于语句的表征、基于函数的表征等不同等级;根据表征方法的不同,分为基于统计的模型、基于自然语言的模型和基于深度学习的模型。对近几年基于深度学习的代码表征研究进展进行了综述,并从表征粒度、表征层次、表征模型、应用场景等方面对现有工作进行了概括、比较和分析。对基于深度学习的代码表征的未来发展趋势进行分析和展望。  相似文献   

13.
代码表征旨在融合源代码的特征,以获取其语义向量,在基于深度学习的代码智能中扮演着重要角色.传统基于手工的代码表征依赖领域专家的标注,繁重耗时,且无法灵活地复用于特定下游任务,这与绿色低碳的发展理念极不相符.因此,近年来,许多自监督学习的编程语言大规模预训练模型(如CodeBERT)应运而生,为获取通用代码表征提供了有效途径.这些模型通过预训练获得通用的代码表征,然后在具体任务上进行微调,取得了显著成果.但是,要准确表示代码的语义信息,需要融合所有抽象层次的特征(文本级、语义级、功能级和结构级).然而,现有模型将编程语言仅视为类似于自然语言的普通文本序列,忽略了它的功能级和结构级特征.因此,旨在进一步提高代码表征的准确性,提出了基于多模态对比学习的代码表征增强的预训练模型(representation enhanced contrastive multimodal pretraining, REcomp). REcomp设计了新的语义级-结构级特征融合算法,将它用于序列化抽象语法树,并通过多模态对比学习的方法将该复合特征与编程语言的文本级和功能级特征相融合,以实现更精准的语义建模.最后,...  相似文献   

14.
吕天根  洪日昌  何军  胡社教 《软件学报》2023,34(5):2068-2082
深度学习模型取得了令人瞩目的成绩,但其训练依赖于大量的标注样本,在标注样本匮乏的场景下模型表现不尽人意.针对这一问题,近年来以研究如何从少量样本快速学习的小样本学习被提了出来,方法主要采用元学习方式对模型进行训练,取得了不错的学习效果.但现有方法:1)通常仅基于样本的视觉特征来识别新类别,信息源较为单一; 2)元学习的使用使得模型从大量相似的小样本任务中学习通用的、可迁移的知识,不可避免地导致模型特征空间趋于一般化,存在样本特征表达不充分、不准确的问题.为解决上述问题,将预训练技术和多模态学习技术引入小样本学习过程,提出基于多模态引导的局部特征选择小样本学习方法.所提方法首先在包含大量样本的已知类别上进行模型预训练,旨在提升模型的特征表达能力;而后在元学习阶段,方法利用元学习对模型进行进一步优化,旨在提升模型的迁移能力或对小样本环境的适应能力,所提方法同时基于样本的视觉特征和文本特征进行局部特征选择来提升样本特征的表达能力,以避免元学习过程中模型特征表达能力的大幅下降;最后所提方法利用选择后的样本特征进行小样本学习.在MiniImageNet、CIFAR-FS和FC-100这3个基准数...  相似文献   

15.
基于多模特征深度学习的机器人抓取判别方法   总被引:2,自引:0,他引:2  
针对智能机器人抓取判别问题,研究多模特征深度学习与融合方法.该方法将测试特征分布偏离训练特征视为一类噪化,引入带稀疏约束的降噪自动编码(Denoising auto-encoding, DAE),实现网络权值学习;并以叠层融合策略,获取初始多模特征的深层抽象表达,两种手段相结合旨在提高深度网络的鲁棒性和抓取判别精确性.实验采用深度摄像机与6自由度工业机器人组建测试平台,对不同类别目标进行在线对比实验.结果表明,设计的多模特征深度学习依据人的抓取习惯,实现最优抓取判别,并且机器人成功实施抓取定位,研究方法对新目标具备良好的抓取判别能力.  相似文献   

16.
随着深度神经网络的兴起,多模态学习受到广泛关注.跨模态检索是多模态学习的重要分支,其目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本.近年来,跨模态检索逐渐成为国内外学术界研究的前沿和热点,是信息检索领域未来发展的重要方向.首先,聚焦于深度学习跨模态图文检索研究的最新进展,对基于...  相似文献   

17.
数据融合是最大程度发挥大数据价值的关键,深度学习是挖掘数据深层特征信息的技术利器,基于深度学习的数据融合能够充分挖掘大数据潜在价值,从新的深度和广度拓展对世界的探索和认识。综述了近几年基于深度学习的数据融合方法的相关文献,以此了解深度学习在数据融合中应用所具有的优势。分类阐述常见的数据融合方法,同时指出这些方法的优点和不足。从基于深度学习特征提取的数据融合方法、基于深度学习融合的数据融合方法、基于深度学习全过程的数据融合方法三个方面对基于深度学习的数据融合方法进行分析,并做了对比研究与总结。总结全文并讨论了深度学习在数据融合中应用的难点和未来需要进一步研究的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号