首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 259 毫秒
1.
当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等需求,通过构建跨模态、跨平台的语义贯通与统一表征机制,进一步实现分析和推理以及对复杂认知目标的不断逼近,建立语义层级的逻辑推理机制,最终实现跨媒体类人智能推理...  相似文献   

2.
回顾跨媒体智能的发展历程,分析跨媒体智能的新趋势与现实瓶颈,展望跨媒体智能的未来前景。跨媒体智能旨在融合多来源、多模态数据,并试图利用不同媒体数据间的关系进行高层次语义理解与逻辑推理。现有跨媒体算法主要遵循了单媒体表达到多媒体融合的范式,其中特征学习与逻辑推理两个过程相对割裂,无法综合多源多层次的语义信息以获得统一特征,阻碍了推理和学习过程的相互促进和修正。这类范式缺乏显式知识积累与多级结构理解的过程,同时限制了模型可信度与鲁棒性。在这样的背景下,本文转向一种新的智能表达方式——视觉知识。以视觉知识驱动的跨媒体智能具有多层次建模和知识推理的特点,并易于进行视觉操作与重建。本文介绍了视觉知识的3个基本要素,即视觉概念、视觉关系和视觉推理,并对每个要素展开详细讨论与分析。视觉知识有助于实现数据与知识驱动的统一框架,学习可归因可溯源的结构化表达,推动跨媒体知识关联与智能推理。视觉知识具有强大的知识抽象表达能力和多重知识互补能力,为跨媒体智能进化提供了新的有力支点。  相似文献   

3.
跨媒体相关性推理与检索研究   总被引:1,自引:0,他引:1  
针对不同模态的多媒体数据之间难以度量跨媒体相关性的问题,提出了一种基于相关性推理的跨媒体检索方法,首先从相同模态内部(intra-media)的相似性和不同模态之间(cross-media)的相关性两个方面进行分析和量化,然后构造跨媒体关联图将相似性和相关性学习结果进行统一表达,以跨媒体关联图的最短路径为基础进行跨媒体检索,并提出相关反馈算法将用户交互中的先验知识融入到跨媒体关联图中,有效提高了跨媒体检索效率.该方法可以应用于针对用户提交查询样例的不同模态交叉检索系统.  相似文献   

4.
如何跨越从跨媒体数据到跨媒体知识所面临的“异构鸿沟”和“语义鸿沟”,对体量巨大的跨媒体数据进行有效管理与利用,是发展新一代人工智能亟待突破的瓶颈问题。针对以图像视频为代表的海量网络跨媒体内容,借鉴人类感知与认知机理,本文对跨媒体内容统一表征与符号化表征、跨媒体深度关联理解、类人跨媒体智能推理等关键技术开展研究。基于上述关键技术,着力于解决发展新一代人工智能的知识匮乏共性难题,开展大规模跨媒体知识图谱的构建及人机协同标注技术研究,为跨媒体感知进阶到认知提供关键支撑,进一步为跨媒体理解、检索、内容转换生成等跨媒体内容管理与服务热点应用领域提供了可行思路。  相似文献   

5.
跨媒体数据搜索中不同媒体类型的数据间存在特征异构和语义鸿沟问题,且社交网络数据往往呈现语义稀疏性、多样性等特性.针对上述问题,文中提出基于多模态图和对抗哈希注意力网络的跨媒体细粒度表示学习模型,获取统一的跨媒体语义表示,应用于社交网络跨媒体搜索.首先,构建图像-单词关联图,并基于图随机游走策略挖掘图像和文本单词间直接语...  相似文献   

6.
2022年将特别关注人工智能+、物联网与5G、区块链、量子计算、大数据、隐私安全保护等技术的融合应用。本年度组稿包括但不仅限于以下方向:人工智能:多模态/跨模态学习、大数据智能、跨媒体感知计算、混合增强智能、群体智能、自主协同控制与优化决策、统计学习、联邦学习、因果推理、类脑智能计算、量子智能计算、智能机器感知与模式识别、自然语言处理与理解、知识图谱、机器人与智能系统、多智能体协同。  相似文献   

7.
2022年将特别关注人工智能+、物联网与5G、区块链、量子计算、大数据、隐私安全保护等技术的融合应用。本年度组稿包括但不仅限于以下方向:人工智能:多模态/跨模态学习、大数据智能、跨媒体感知计算、混合增强智能、群体智能、自主协同控制与优化决策、统计学习、联邦学习、因果推理、类脑智能计算、量子智能计算、智能机器感知与模式识别、自然语言处理与理解、知识图谱、机器人与智能系统、多智能体协同。  相似文献   

8.
陈烨  周刚  卢记仓 《计算机应用研究》2021,38(12):3535-3543
为了总结前人工作,给相关研究者提供思路,首先讨论了当前多模态知识图谱的基本概念,然后从图数据库和知识图谱这两个角度介绍了多模态知识图谱的构建工作,并总结了两种主要方法的思路.还分析了多模态知识图谱的构建和应用中的关键技术和相关工作,如多模态信息提取、表示学习和实体链接.此外,列举了多模态知识图谱在四种场景中的应用,包括推荐系统、跨模态检索、人机交互和跨模态数据管理.最后,从四个方面展望了多模态知识图谱的发展前景.  相似文献   

9.
研究食品安全领域跨媒体数据的主题分析技术,融合多种媒体形式数据的语义,准确表达跨媒体文档的主题。由于食品安全事件相关多媒体数据的大量涌现,单一媒体的主题分析技术不能全面反映整个数据集的主题分布,存在语义缺失、主题空间不统一,语义融合困难等问题。提出一种跨媒体主题分析方法,首先以概率生成方法分别对文本和图像数据进行语义分析,然后利用跨媒体数据间的语义相关性进行视觉主题学习,建立视觉主题模型,进而实现视觉数据和文本主题之间的映射。仿真结果表明,跨媒体主题分析方法能够有效获取与图像语义相关的文本主题,且主题跟踪的准确度优于文本主题跟踪方法,能够为食品安全事件的监测提供依据。  相似文献   

10.
海洋是高质量发展的要地,海洋科学大数据的发展为认知和经略海洋带来机遇的同时也引入了新的挑战。海洋科学大数据具有超多模态的显著特征,目前尚未形成面向海洋领域特色的多模态智能计算理论体系和技术框架。因此,本文首次从多模态数据技术的视角,系统性介绍面向海洋现象/过程的智能感知、认知和预知的交叉研究进展。首先,通过梳理海洋科学大数据全生命周期的阶段演进过程,明确海洋多模态智能计算的研究对象、科学问题和典型应用场景。其次,在海洋多模态大数据内容分析、推理预测和高性能计算3个典型应用场景中展开现有工作的系统性梳理和介绍。最后,针对海洋数据分布和计算模式的差异性,提出海洋多模态大数据表征建模、跨模态关联、推理预测以及高性能计算4个关键科学问题中的挑战,并提出未来展望。  相似文献   

11.
在深度学习领域,解决实际应用问题往往需要结合多种模态信息进行推理和决策,其中视觉和语言信息是交互过程中重要的两种模态。在诸多应用场景中,处理多模态任务往往面临着模型架构组织方式庞杂、训练方法效率低下等问题。综合以上问题,梳理了在图像文本多模态领域的近五年的代表性成果。首先从主流的多模态任务出发,介绍了相关文本和图像多模态数据集以及预训练目标。其次,考虑以Transformer为基础结构的视觉语言模型,结合特征提取方法,从多模态组织架构、跨模态融合方法等角度进行分析,总结比较不同处理策略的共性和差异性。然后从数据输入、结构组件等多角度介绍模型的轻量化方法。最后,对基于图像文本的多模态方法未来的研究方向进行了展望。  相似文献   

12.
目的 方面级多模态情感分析日益受到关注,其目的是预测多模态数据中所提及的特定方面的情感极性。然而目前的相关方法大都对方面词在上下文建模、模态间细粒度对齐的指向性作用考虑不够,限制了方面级多模态情感分析的性能。为了解决上述问题,提出一个方面级多模态协同注意图卷积情感分析模型(aspect-level multimodal co-attention graph convolutional sentiment analysis model,AMCGC)来同时建模方面指向的模态内上下文语义关联和跨模态的细粒度对齐,以提升情感分析性能。方法 AMCGC为了获得方面导向的模态内的局部语义相关性,利用正交约束的自注意力机制生成各个模态的语义图。然后,通过图卷积获得含有方面词的文本语义图表示和融入方面词的视觉语义图表示,并设计两个不同方向的门控局部跨模态交互机制递进地实现文本语义图表示和视觉语义图表示的细粒度跨模态关联互对齐,从而降低模态间的异构鸿沟。最后,设计方面掩码来选用各模态图表示中方面节点特征作为情感表征,并引入跨模态损失降低异质方面特征的差异。结果 在两个多模态数据集上与9种方法进行对比,在Twitter-2015数据集中,相比于性能第2的模型,准确率提高了1.76%;在Twitter-2017数据集中,相比于性能第2的模型,准确率提高了1.19%。在消融实验部分则从正交约束、跨模态损失、交叉协同多模态融合分别进行评估,验证了AMCGC模型各部分的合理性。结论 本文提出的AMCGC模型能更好地捕捉模态内的局部语义相关性和模态之间的细粒度对齐,提升方面级多模态情感分析的准确性。  相似文献   

13.
针对多模态数据查询和基于模式之间低阶关系的查询方法存在的局限性,提出一种基于高阶模式之间关系的跨模态关联学习模型。在超网络的基础上,构建一种具有层次结构的分层超网络模型,由超网络数目等于模式数目的模式层和代表几种模式之间关系的集成层构成;经过训练的分层超网络就可以通过跨模态关联推理生成对于给定多模态查询的文本术语和视觉词关键字,实现多模态查询。基于大量带有图像文章的实验结果表明,提出模型可以提高生成关键字的相似性,生成文本术语,成功检索出具有小部分信息的文章。  相似文献   

14.
针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示;并设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明该方法在多模态任务方面的广泛适用性。  相似文献   

15.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

16.
随着社交媒体和人机交互技术的快速发展,视频、图像以及文本等多模态数据在互联网中呈爆炸式增长,因此多模态智能研究受到关注。其中,视觉问答与推理任务是跨模态智能研究的一个重要组成部分,也是人类实现人工智能的重要基础,已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先,介绍了视觉问答与推理的定义,并简述了当前该任务面临的挑战;其次,从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳;然后,全面介绍了视觉问答与推理常用公开数据集,并对相关数据集上的已有算法进行详细分析;最后,对视觉问答与推理任务的未来方向进行了展望。  相似文献   

17.
随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。  相似文献   

18.
基于单一模态实体之间建立关联所形成的语义关系网难以准确理解现实世界中的多模态语义。为增强多源知识图谱的补全能力以及解决知识图谱语义缺失问题,提出一种基于多模态嵌入张量分解的方法 ME-TD (multimodal embedding tensor decomposition)。利用由图像、描述文本和知识构成的三元组作为张量分解模型的输入,分别对图像和文本进行特征提取,研究3种融合方法:相加融合、相乘融合以及连接映射方法,通过高维映射形成一个多模态的三阶张量;经过三模式分解,产生一个核心张量与每一个维度因子矩阵的乘积,通过链接预测计算三元组正确的概率。实验结果表明,ME-TD方法在知识补全中对多模态矩阵预测效果相较于其它方法有较为明显提升。  相似文献   

19.
基于联合知识表示学习的多模态实体对齐   总被引:1,自引:0,他引:1  
王会勇  论兵  张晓明  孙晓领 《控制与决策》2020,35(12):2855-2864
基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多模态实体对齐方法(ITMEA).该方法联合多模态(图像、文本)数据,采用TransE与TransD相结合的知识表示学习模型,使多模态数据能够嵌入到统一低维语义空间.在低维语义空间中迭代地学习已对齐多模态实体之间的关系,从而实现多模态数据的实体对齐.实验结果表明,ITMEA在WN18-IMG数据集中能够较好地实现多模态实体对齐.  相似文献   

20.
在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号