首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,...  相似文献   

2.
目前大多数知识图谱表示学习只考虑实体和关系之间的结构知识,性能受存储知识的限制,造成知识库补全能力不稳定,而融入外部信息的知识表示方法大多只针对某一特定的外部模态信息建模,适用范围有限.因此,文中提出带有注意力模块的卷积神经网络模型.首先,考虑文本和图像两种外部模态信息,提出三种融合外部模态信息和实体的方案,获得实体的...  相似文献   

3.
模态是指人接收信息的方式,包括听觉、视觉、嗅觉、触觉等多种方式。多模态学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习的目的是建立能够处理和关联来自多种模式信息的模型,它是一个充满活力的多学科领域,具有日益重要和巨大的潜力。目前比较热门的研究方向是图像、视频、音频、文本之间的多模态学习。着重介绍了多模态在视听语音识别、图文情感分析、协同标注等实际层面的应用,以及在匹配和分类、对齐表示学习等核心层面的应用,并针对多模态学习的核心问题:匹配和分类、对齐表示学习方面给出了说明。对多模态学习中常用的数据集进行了介绍,并展望了未来多模态学习的发展趋势。  相似文献   

4.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。  相似文献   

5.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。  相似文献   

6.
在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。  相似文献   

7.
代码表征旨在融合源代码的特征,以获取其语义向量,在基于深度学习的代码智能中扮演着重要角色.传统基于手工的代码表征依赖领域专家的标注,繁重耗时,且无法灵活地复用于特定下游任务,这与绿色低碳的发展理念极不相符.因此,近年来,许多自监督学习的编程语言大规模预训练模型(如CodeBERT)应运而生,为获取通用代码表征提供了有效途径.这些模型通过预训练获得通用的代码表征,然后在具体任务上进行微调,取得了显著成果.但是,要准确表示代码的语义信息,需要融合所有抽象层次的特征(文本级、语义级、功能级和结构级).然而,现有模型将编程语言仅视为类似于自然语言的普通文本序列,忽略了它的功能级和结构级特征.因此,旨在进一步提高代码表征的准确性,提出了基于多模态对比学习的代码表征增强的预训练模型(representation enhanced contrastive multimodal pretraining, REcomp). REcomp设计了新的语义级-结构级特征融合算法,将它用于序列化抽象语法树,并通过多模态对比学习的方法将该复合特征与编程语言的文本级和功能级特征相融合,以实现更精准的语义建模.最后,...  相似文献   

8.
社交媒体网站上使用GIF(Graphics Interchange Format)作为消息的回复相当普遍。但目前大多方法针对问题“如何选择一个合适的GIF回复消息”,没有很好地利用社交媒体上的GIF附属标记信息。为此,提出基于对比学习和GIF标记的多模态对话回复检索(CoTa-MMD)方法,将标记信息整合到检索过程中。具体来说就是使用标记作为中间变量,文本→GIF的检索就被转换为文本→GIF标记→GIF的检索,采用对比学习算法学习模态表示,并利用全概率公式计算检索概率。与直接的文本图像检索相比,引入的过渡标记降低了不同模态的异质性导致的检索难度。实验结果表明,CoTa-MMD模型相较于深度监督的跨模态检索(DSCMR)模型,在PEPE-56多模态对话数据集和Taiwan多模态对话数据集上文本图像检索任务的召回率之和分别提升了0.33个百分点和4.21个百分点。  相似文献   

9.
近年来,使用对比学习技术在大规模无标注数据上所构建的预训练模型得到了广泛的应用(如车道检测、人脸识别等)。然而,其面临的安全和隐私问题也引起学者的广泛关注。文章聚焦于针对多模态对比学习模型的投毒攻击,该攻击将精心构造的数据注入训练集,以改变模型在特定数据上的预测行为。针对现有投毒攻击主要针对文本或图像单模态模型,没有利用文本或者图像间的多模态信息的问题,文章提出一种同时对文本与图像编码器投毒的靶向投毒攻击。首先,基于Beta分布自动生成水印图像透明度;然后,根据透明度生成添加水印后的样本,并根据水印样本与目标样本之间的欧式距离得到该透明度下应当投毒的样本数;最后,通过特定的优化算法生成投毒数据集。与现有的投毒攻击相比,文章所提方法具有更低的投毒率,并能够保持目标模型的性能。  相似文献   

10.
杨杨  詹德川  姜远  熊辉 《软件学报》2021,32(4):1067-1081
近年来,多模态学习逐步成为机器学习、数据挖掘领域的研究热点之一,并成功地应用于诸多现实场景中,如跨媒介搜索、多语言处理、辅助信息点击率预估等.传统多模态学习方法通常利用模态间的一致性或互补性设计相应的损失函数或正则化项进行联合训练,进而提升单模态及集成的性能.而在开放环境下,受数据缺失及噪声等因素的影响,多模态数据呈现...  相似文献   

11.
吕天根  洪日昌  何军  胡社教 《软件学报》2023,34(5):2068-2082
深度学习模型取得了令人瞩目的成绩,但其训练依赖于大量的标注样本,在标注样本匮乏的场景下模型表现不尽人意.针对这一问题,近年来以研究如何从少量样本快速学习的小样本学习被提了出来,方法主要采用元学习方式对模型进行训练,取得了不错的学习效果.但现有方法:1)通常仅基于样本的视觉特征来识别新类别,信息源较为单一; 2)元学习的使用使得模型从大量相似的小样本任务中学习通用的、可迁移的知识,不可避免地导致模型特征空间趋于一般化,存在样本特征表达不充分、不准确的问题.为解决上述问题,将预训练技术和多模态学习技术引入小样本学习过程,提出基于多模态引导的局部特征选择小样本学习方法.所提方法首先在包含大量样本的已知类别上进行模型预训练,旨在提升模型的特征表达能力;而后在元学习阶段,方法利用元学习对模型进行进一步优化,旨在提升模型的迁移能力或对小样本环境的适应能力,所提方法同时基于样本的视觉特征和文本特征进行局部特征选择来提升样本特征的表达能力,以避免元学习过程中模型特征表达能力的大幅下降;最后所提方法利用选择后的样本特征进行小样本学习.在MiniImageNet、CIFAR-FS和FC-100这3个基准数...  相似文献   

12.
基于联合知识表示学习的多模态实体对齐   总被引:1,自引:0,他引:1  
王会勇  论兵  张晓明  孙晓领 《控制与决策》2020,35(12):2855-2864
基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多模态实体对齐方法(ITMEA).该方法联合多模态(图像、文本)数据,采用TransE与TransD相结合的知识表示学习模型,使多模态数据能够嵌入到统一低维语义空间.在低维语义空间中迭代地学习已对齐多模态实体之间的关系,从而实现多模态数据的实体对齐.实验结果表明, ITMEA在WN18-IMG数据集中能够较好地实现多模态实体对齐.  相似文献   

13.
随着气象观测技术的快速发展,气象行业积累了海量的气象大数据,为构建新型的数据驱动的气象预测模型提供了机遇。由于气象数据中存在的长时依赖关系和大范围空间关联关系,以及多模态气象要素间存在的复杂跨模态耦合关系,基于深度学习的气象预测是一个具有挑战性的研究课题。针对“温度、相对湿度、纬向风速、经向风速”四种经典气象要素组成的等气压层时序多模态数据,提出了一种基于多模态融合的气象预测深度学习模型。首先采用卷积网络来学习各个模态的特征,并在此基础上引入门控机制实现多模态加权融合;然后引入注意力机制,以并行时空轴向注意力代替传统的注意力机制,从而有效地学习长时依赖关系和大范围空间关联关系。整体结构上,采用了基于Transformer的编码器-解码器结构。在ERA5再分析数据集(子区域)上进行了对比实验,实验结果表明了所提方法在温度、相对湿度、风速等预测任务上的有效性和优越性。  相似文献   

14.
基于多模态关联图的图像语义标注方法   总被引:1,自引:0,他引:1  
郭玉堂  罗斌 《计算机应用》2010,30(12):3295-3297
为了改善图像标注的性能,提出了一种基于多模态关联图的图像语义标注方法。该方法用一个无向图表达了图像区域特征、标注词以及图像三者之间的关系,结合图像区域特征相似性和语义间的相关性提取图像语义信息,提高了图像标注的精度。利用逆向文档频率(IDF)修正图像节点与其标注词节点之间边的权值,克服了传统方法中因高频词引起的偏差,有效地提高了图像标注的性能。在Corel图像数据集上进行了实验,实验结果验证了该方法的有效性。  相似文献   

15.
船舶轨迹预测是实现船舶智能航行的前提与基础. 目前, 针对船舶轨迹预测的研究大多仅依赖于船舶自动识别系统(AIS)历史数据, 而未利用到船舶上其他传感器信息. 于是本文提出了一种多模态轨迹预测模型——S-Transformer. 在该网络中, 电子海图中的海水/陆地被分割作为辅助训练目标与真实舟山港AIS数据加以综合从而对模型进行训练, 并对船舶未来航行轨迹进行预测; 其中, 本文还引入segment recurrence来捕获AIS数据的长期依赖关系. 实验结果表明, S-Transformer在不同的船舶行驶情况中都有优秀的预测结果, 并优于相关预测任务的单模态基准模型.  相似文献   

16.
对比学习作为一种自监督式的深度学习范式,在计算机视觉、自然语言处理等领域取得了瞩目的成绩。受这些成功的对比学习模型的启发,近年来大量研究者尝试将其拓展到图数据上,这为推动图对比学习的发展提供了坚实的基础。该领域现有的综述主要关注于传统的图自监督学习任务,而缺少对图对比学习方法的梳理和归纳。为了更好地帮助相关领域的研究者,该文梳理了近些年来的图对比学习模型,通过将现有工作归纳到一个统一的框架下,突出其发展脉络。最后该文总结了图对比学习常用的数据集和评价指标,并展望了该领域未来的发展方向。  相似文献   

17.
针对传统多模态命名实体识别方法无法有效融合图文模态信息且不能区分易混淆实体等问题,提出一种基于多任务学习的多模态命名实体识别方法,通过对比融合辅助任务促进图文模态信息的融合,通过实体聚类辅助任务提升模型对易混淆实体的判断能力。利用BERT预训练语言模型和ResNet模型分别对原始文本和图片进行特征映射获得相应的特征向量,并利用跨模态Transformer结构融合图文模态信息。在多模态命名实体识别任务基础上,增加对比融合辅助任务促进图文模态信息融合,增加实体聚类辅助任务学习实体类别之间的差异,提升模型对易混淆实体的区分能力。最后,利用条件随机场层学习上下文转移概率,并输出最优预测结果。实验结果显示,在国际公开数据集Twitter-2017上,所提方法相较于基线方法取得了更高的准确率、召回率和F1值,其中F1值可达85.59%,表明对比融合辅助任务和实体聚类辅助任务能够促进模型对实体的识别效果。  相似文献   

18.
现有视频推荐方法在算法框架中引入图神经网络来建模用户—视频协同关系,学习用户和视频的表示向量,但是节点中包含的冗余噪声会限制模型的建模能力。针对以上问题,提出了一种融合多模态自监督图学习的视频推荐模型(IMSGL-VRM)。首先,在图数据增强模式下构建自监督的图神经网络模型学习多模态视图下的节点特征表示,以提升节点表示的泛化能力;其次,为了得到推荐结果的多样性,设计了多兴趣提取模块从用户历史的交互视频序列中建模用户的多兴趣;最后,融合多模态的用户多兴趣表示和视频的特征表示,使用多样性可控的方式输出推荐结果,以满足视频推荐的多样性需求。在MovieLens-1M和TikTok数据集上实验,采用准确性、召回率、NDCG和多样性等指标评估模型。实验结果表明,该模型相比经典基准模型均有显著的性能提升。  相似文献   

19.
针对多模态融合效果不佳,不能充分挖掘特定时间段,多视角关键情感信息的问题,提出了一种基于多视角的时序多模态情感分类模型,用于提取特定时间段,多视角下的关键情感信息。首先,对文本标题及文本内容两种视角下的数据进行低维空间词嵌入和序列表达,提取不同视角的多模态时序特征,对图片截取,水平镜像两种视角下的数据进行特征提取;其次,采用循环神经网络构建多模态数据的时序序列交互特征,增大互信息;最后,基于对比学习进行联合训练,完成情感分类。该模型在两个多模态情感分类基准数据集Yelp和Mutli-Zol上评估,准确度分别为73.92%、69.15%。综合实验表明,多视角的特定时间段多模态语句序列可提升模型性能。  相似文献   

20.
阿尔茨海默症是一种典型的涉及多种致病因素的神经系统退行性疾病.然而,阿尔茨海默症的病因尚不明确,病程不可逆转,且无治愈方法,因此其早期诊断和治疗一直是人们关注的重点.受试者的神经影像数据对于该疾病的诊断具有重要的辅助作用,而结合多个模态的数据可进一步提高诊断效果.目前,联合该疾病的多模态数据进行辅助诊断逐渐成为一个新兴...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号