首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
陈烨  周刚  卢记仓 《计算机应用研究》2021,38(12):3535-3543
为了总结前人工作,给相关研究者提供思路,首先讨论了当前多模态知识图谱的基本概念,然后从图数据库和知识图谱这两个角度介绍了多模态知识图谱的构建工作,并总结了两种主要方法的思路.还分析了多模态知识图谱的构建和应用中的关键技术和相关工作,如多模态信息提取、表示学习和实体链接.此外,列举了多模态知识图谱在四种场景中的应用,包括推荐系统、跨模态检索、人机交互和跨模态数据管理.最后,从四个方面展望了多模态知识图谱的发展前景.  相似文献   

2.
传统的教育知识图谱研究多数面向文本资源,忽略了多模态资源对教育知识的解读作用及其自身丰富的特征表示。为了更好地推进后续研究工作,以多模态资源为切入点,对教育知识图谱进行综述。首先,介绍了知识图谱的概念和分类;其次,综述了教育知识图谱的内涵,对教育知识图谱的定义、分类及其构建框架进行梳理;结合以神经网络为代表的深度学习方式,对教育知识图谱的构建技术进行重点介绍;最后,总结了教育知识图谱的相关应用,并指出当前研究中存在的问题与未来的研究方向。  相似文献   

3.
基于联合知识表示学习的多模态实体对齐   总被引:1,自引:0,他引:1  
王会勇  论兵  张晓明  孙晓领 《控制与决策》2020,35(12):2855-2864
基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多模态实体对齐方法(ITMEA).该方法联合多模态(图像、文本)数据,采用TransE与TransD相结合的知识表示学习模型,使多模态数据能够嵌入到统一低维语义空间.在低维语义空间中迭代地学习已对齐多模态实体之间的关系,从而实现多模态数据的实体对齐.实验结果表明,ITMEA在WN18-IMG数据集中能够较好地实现多模态实体对齐.  相似文献   

4.
模态是指人接收信息的方式,包括听觉、视觉、嗅觉、触觉等多种方式。多模态学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习的目的是建立能够处理和关联来自多种模式信息的模型,它是一个充满活力的多学科领域,具有日益重要和巨大的潜力。目前比较热门的研究方向是图像、视频、音频、文本之间的多模态学习。着重介绍了多模态在视听语音识别、图文情感分析、协同标注等实际层面的应用,以及在匹配和分类、对齐表示学习等核心层面的应用,并针对多模态学习的核心问题:匹配和分类、对齐表示学习方面给出了说明。对多模态学习中常用的数据集进行了介绍,并展望了未来多模态学习的发展趋势。  相似文献   

5.
朱旭龙 《软件》2024,(1):161-163
为实现高效、准确的知识产权侵权检测,本文研究大数据驱动的多模态异构信息综合分析方法。通过分布式爬虫、API采集等手段获取海量多源数据;针对文本、图像、音频等数据类型分别采用NLP、CNN等方法进行特征提取,并构建知识图谱表示数据之间的关系;构建云原生深度学习模型,实现对多模态特征的端到端训练与融合。系统支持异构数据的采集、表示、建模与分析,并可方便集成到移动端和Web应用中。结果表明,准确率达90%以上,高于单一数据源和模型方法。本研究为构建高效的知识产权保护系统提供了有益参考。  相似文献   

6.
传统文本分类方法主要是基于单模态数据所驱动的经验主义统计学习方法,缺乏对数据的理解能力,鲁棒性较差,单个模态的模型输入也难以有效分析互联网中越来越丰富的多模态化数据。针对此问题提出两种提高分类能力的方法:引入多模态信息到模型输入,旨在弥补单模态信息的局限性;引入知识图谱实体信息到模型输入,旨在丰富文本的语义信息,提高模型的泛化能力。模型使用BERT提取文本特征,改进的ResNet提取图像特征,TransE提取文本实体特征,通过前期融合方式输入到BERT模型中进行分类,在研究多标签分类问题的MM-IMDB数据集上F1值达到66.5%,在情感分析数据集Twitter15&17上ACC值达到71.1%,结果均优于其他模型。实验结果表明,引入多模态信息和实体信息能够提高模型的文本分类能力。  相似文献   

7.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。  相似文献   

8.
现今,随着大数据及人工智能技术的不断进步,AIGC(生成式AI)技术和多模态知识图谱技术在不同领域中的应用也得到了广泛关注。AIGC技术通过对人工智能算法的发展和优化,实现了从经验和数据中自我学习及自我完善的能力,从而在自然语言处理、图像识别、语音识别等领域实现了重要突破。而多模态知识图谱技术则是将多种类型的知识进行组合,结合自然语言理解、计算机视觉、语音识别等技术,形成一个全面且可扩展的领域知识图谱,提高了人机交互的效率和准确性。本文分别从大数据时代AIGC的发展历程、基础原理、应用情况等五个方面进行探讨,然后围绕AIGC技术与多模态知识图谱技术的关系及未来发展趋势进行阐述,为两者的发展提供一些有益的思路。  相似文献   

9.
目前大多数知识图谱表示学习只考虑实体和关系之间的结构知识,性能受存储知识的限制,造成知识库补全能力不稳定,而融入外部信息的知识表示方法大多只针对某一特定的外部模态信息建模,适用范围有限.因此,文中提出带有注意力模块的卷积神经网络模型.首先,考虑文本和图像两种外部模态信息,提出三种融合外部模态信息和实体的方案,获得实体的多模态表示.再通过结合通道注意力模块和空间注意力模块,增强卷积的表现力,提高知识表示的质量,提升模型的补全能力.在多个公开的多模态数据集上进行链路预测和三元组分类实验,结果表明文中模型性能较优.  相似文献   

10.
深入分析了跨媒体智能关联分析与语义理解理论技术的最新研究进展,包括多模态数据的统一表达、知识引导的数据融合、跨媒体关联分析、基于知识图谱的跨媒体表征技术以及面向多模态的智能应用.其中,多模态数据的统一表达是对跨媒体信息进行分析推理的先决条件,利用多模态信息间的语义一致性剔除冗余信息,通过跨模态相互转化来实现跨媒体信息统一表达,学习更全面的特征表示;跨媒体关联分析立足于图像语言、视频语言以及音视频语言的跨模态关联分析与理解技术,旨在弥合视觉、听觉以及语言之间的语义鸿沟,充分建立不同模态间的语义关联;基于知识图谱的跨媒体表征技术通过引入跨媒体的知识图谱,从跨媒体知识图谱构建、跨媒体知识图谱嵌入以及跨媒体知识推理3个方面展开研究,增强跨媒体数据表征的可靠性,并提升后续推理任务的分析效率和准确性;随着跨模态分析技术的快速发展,面向多模态的智能应用得到了更多的技术支撑,依据智能应用所需要的领域知识,选取了多模态视觉问答,多模式视频摘要、多模式视觉模式挖掘、多模式推荐、跨模态智能推理和跨模态医学图像预测等跨模态应用实例,梳理了其在多模态数据融合以及跨媒体分析推理方面的研究进展.  相似文献   

11.
多模态知识图谱(multi-modal knowledge graph, MMKG)是近几年新兴的人工智能领域研究热点. 本文提供了一种多模态领域知识图谱的构建方法, 以解决计算机学科领域知识体系庞大分散的问题. 首先, 通过爬取计算机学科的相关多模态数据, 构建了一个系统化的多模态知识图谱. 但构建多模态知识图谱需要耗费大量的人力物力, 本文训练了基于LEBERT模型和关系抽取规则的实体-关系联合抽取模型, 最终实现了一个能够自动抽取关系三元组的多模态计算机学科领域知识图谱.  相似文献   

12.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。  相似文献   

13.
基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前知识驱动的多模态语义理解研究进展,文中在对相关方法进行系统调研与分析的基础上,归纳总结关系型和对齐型这两类主要的多模态知识表示框架.然后选择多个代表性应用进行具体介绍,包括图文匹配、目标检测、语义分割、视觉-语言导航等.此外,文中总结当前相关方法的优缺点并展望未来可能的发展趋势.  相似文献   

14.
综述了多模态知识图谱技术在场景识别方面的应用。该技术将不同层次的3D专业知识结合到深度神经网络中,实现场景认知和知识表达。从知识的存储、获取和归纳三个层面,系统阐述了该技术的相关内容。贡献在于:全面综述了外置特征数据库快速构建3D场景图的现有技术;深入探讨了处理三维点云和视频的深度学习方法,并对此领域的未来研究方向做出分析。该研究对人工智能领域具有重要意义,为相关领域的进一步研究提供了有益的参考。为加强多模态知识图谱与其他人工智能技术(如自然语言处理、计算机视觉等)之间的融合,实现更加智能化、自动化、人性化的应用做出贡献。  相似文献   

15.
鉴于视频感知方式的多样性,视频标签层级分类算法均从视觉和文本模态入手,训练联合模型共同推断视频内容。但现有研究通常只适用于粗粒度的分类,针对影视剧名的分类,则需要更加细粒度的识别。提出了一个融合知识图谱的影视视频标签分类算法。首先,使用了基于大规模通用数据训练的多模态预训练模型提取了视觉和文本的特征,训练了一个多任务的视频标签预测模型,得到视频的类型、题材和实体三级标签;通过在多任务学习网络中引入相似性任务提高分类模型训练的难度,使得同类样本特征更加紧密,且更好地表达样本差异。其次,对于最细粒度的实体标签,提出了一个局部注意力头扩展的实体纠错模型,引入外部知识图谱的共现信息对前置模型的预测结果做修正,得到更准确的实体标签预测结果。采集豆瓣的半结构化数据构建了影视知识图谱并对影视视频标签分类模型进行了实证研究。视频标签分类的实验结果表明,首先,基于多任务网络结构,在训练分类任务时加入交叉熵损失函数和相似性损失函数对模型进行共同约束优化了特征表达,在类型、题材、实体标签的Top-1分类准确率上分别提升了3.70%、3.35%和16.57%;其次,针对前置模型的困难样本提出的全局-局部注意力...  相似文献   

16.
人工智能课程在教学过程面临着知识概念多、理论抽象等问题,不利于学生理解相关知识点。文章采用机器学习方法,通过数据收集与实体关系分类体系构建、实体关系抽取、多模态资源链接3个步骤自动构建了人工智能课程多模态知识图谱,并对其进行了可视化展示。  相似文献   

17.
随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求,如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构,总结了三个常见的融合模型,简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面,对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题,并提出未来的研究方向。  相似文献   

18.
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。  相似文献   

19.
在团队自建的中文多模态情感识别语料库的基础上,训练了多模态情感识别深度神经网络模型,能综合视频中图片、音频和文本三个模态信息进行情感识别。基于该情感识别模型,设计并开发了一款基于Android平台的移动应用程序,捕获视频中人物的话语文本、声音和面部表情,识别出人物的情感状态,以支撑后续共情聊天机器人的研发。  相似文献   

20.
城市道路视频描述存在仅考虑视觉信息而忽视了同样重要的音频信息的问题,多模态融合算法是解决此问题的方案之一。针对现有基于Transformer的多模态融合算法都存在着模态之间融合性能低、计算复杂度高的问题,为了提高多模态信息之间的交互性,提出了一种新的基于Transformer的视频描述模型多模态注意力瓶颈视频描述(multimodal attention bottleneck for video captioning,MABVC)。首先使用预训练好的I3D和VGGish网络提取视频的视觉和音频特征并将提取好的特征输入到Transformer模型当中,然后解码器部分分别训练两个模态的信息再进行多模态的融合,最后将解码器输出的结果经过处理生成人们可以理解的文本描述。在通用数据集MSR-VTT、MSVD和自建数据集BUUISE上进行对比实验,通过评价指标对模型进行验证。实验结果表明,基于多模态注意力融合的视频描述模型在各个指标上都有明显提升。该模型在交通场景数据集上依旧能够取得良好的效果,在智能驾驶行业具有很大的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号