首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以完成相应的任务。此种范式称做“三维视觉—语言”推理,在自动驾驶、机器人导航以及人机交互等众多领域广泛应用,已经成为计算机视觉领域中备受瞩目的研究方向。过去几年间,“三维视觉—语言”推理技术迅猛发展,呈现出百花齐放的趋势,但是目前依然缺乏对最新研究进展的全面总结。本文聚焦于两类最具代表性的研究工作,锚框预测和内容生成类的“三维视觉—语言”推理技术,系统性概括领域内研究的最新进展。首先,本文总结了“三维视觉—语言”推理的问题定义和现存挑战,同时概述了一些常见的骨干网络。其次,本文按照方法所关注的下游场景,对两类“三维视觉—语言”推理技术做了进一步细分,并深入探讨了各方法的优缺点。接下来,本文对比分析了各类方法在不同基准数据集上的性能。最后,本文展望了“三维视觉—语言”推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。  相似文献   

2.
文章以研究汉代云纹的视觉语言为例,阐述设计视觉语言中传统视觉语言运用的思考。目的是为了探讨视觉语言之间的转化与融合,以及把中国传统视觉语言的内在精神融合到现代设计语言中的重要意义。  相似文献   

3.
视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉问答和图像描述生成等传统多模态任务,视觉语言导航在多模态融合和推理方面,更具有挑战性.然而由于传统模仿学习的缺陷和数据稀缺的现象,模型面临着泛化能力不足的问题.系统地回顾了视觉语言导航的研究进展,首先对于视觉语言导航的数据集和基础模型进行简要介绍;然后全面地介绍视觉语言导航任务中的代表性模型方法,包括数据增强、搜索策略、训练方法和动作空间四个方面;最后根据不同数据集下的实验,分析比较模型的优势和不足,并对未来可能的研究方向进行了展望.  相似文献   

4.
视觉问答中的语言处理方法对视觉问答模型的性能影响巨大。语言处理方法源于自然语言处理,但在发展过程中与自然语言处理领域最先进技术脱节,导致视觉问答中涉及的问题理解和答案生成受阻。产生这一问题的根源主观上是研究人员对语言处理方法的重要性认识不足,客观上则是相关研究文献的匮乏。针对上述问题,通过分析语言处理对视觉问答的价值,调查视觉问答中涉及到的语言处理方法和最新研究成果,归纳总结语言处理方法的类型,从而为研究人员认识语言处理重要性提供基础;探讨了自然语言处理技术对视觉问答中语言处理方法的推动作用,并展望了语言处理方法未来的发展方向。  相似文献   

5.
近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注.它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的模型通过提示学习在对话生成和多模态图文理解等任务上取得了巨大的成功.然而,这类模型及方法还不能解决视觉中的稠密任务.受此启发,一些研究人员逐渐将提示学习广泛应用到视觉相关的各类任务当中,如图像识别、目标检测、图像分割、领域适应、持续学习等.由于目前还没有提示学习应用在视觉相关领域中的综述,本文将对视觉单模态领域以及视觉语言多模态领域的提示学习方法展开全面论述和分析.作为回顾,我们首先简要介绍自然语言处理领域的预训练模型,并对提示学习的基本概念、下游应用形式以及提示模板类型进行阐述和分类.其次,我们分别介绍视觉单模态领域以及视觉语言多模态领域里提示学习方法适配的预训练模型和任务.再次,我们分别介绍视觉单模态领域以及视觉语言多模态领域的提示学习方法.在自然语言处理领域,提示学习方法以继承预训练形式实现多任务统一为主要目的;与此不同,在视觉相关领域,提示学习方法侧重于面向...  相似文献   

6.
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。  相似文献   

7.
新媒体传播下的视觉语言研究   总被引:1,自引:0,他引:1  
随着数字技术的飞速发展,新媒体为视觉传达设计带来了新的展现形式与发展空间,新媒体创造了认知世界的新观念。本文通过剖析视觉语言的感知,从新媒体与传统媒体比较的角度来解析新媒体传播特征对视觉语言的影响,揭示新媒体传播中视觉传达设计的视觉语言特有的感知方式和表现形式,探讨视觉语言在未来新媒体传播中创新的可能性,有助于设计者借助新媒体特点进行视觉传达设计创新和应用。  相似文献   

8.
基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案.随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展.文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍...  相似文献   

9.
近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能.  相似文献   

10.
《信息与电脑》2022,(1):55-58
随着人工智能的快速发展,对跨模态的研究也渐渐地受到了科研人员的关注。基于深度学习的视觉问答(VisualQuestionAnswering,VQA)模型在数据集上的准确率不断提高,但这些模型也表现出了共同的缺点,即对模态的利用不平衡。本文概述了视觉问答语言先验性领域的多篇论文,对比了各种方法的优缺点,并在现有方法的基础上展望未来缓解视觉问答语言先验性的发展方向。  相似文献   

11.
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。  相似文献   

12.
影像的魅力不仅在于可以直观的传达信息,影响人的思想和情感,还在于它不需要通过语言的中介,就可以跨越民族、时代进行交流。它被广泛应用于现代生活中的许多领域。人与人的交流、沟通、信息的传播已进入了"影像视觉"时代。作为平面设计中元素之一的影像是我们在视觉语言领域中非常值得深入研究的对象,研究影像目的是为我们在进行艺术设计或视觉传达时提供可用的、优秀的影像元素。  相似文献   

13.
视觉语言是设计艺术实现视觉传达的设计语言,它既包含了基本视觉造型语汇,又包含了起类似语法和修辞作用的造型法则,以及由此产生的设计语义。注重视觉语汇的有机结合以及在不同语境下选择适合的视觉语言组合方式可以实现信息的准确传达。  相似文献   

14.
面向复杂场景的人物视觉理解技术能够提升社会智能化协作效率,加速社会治理智能化进程,并在服务人类社会的经济活动、建设智慧城市等方面展现出巨大活力,具有重大的社会效益和经济价值。人物视觉理解技术主要包括实时人物识别、个体行为分析与群体交互理解、人机协同学习、表情与语音情感识别和知识引导下视觉理解等,当环境处于复杂场景中,特别是考虑“人物—行为—场景”整体关联的视觉表达与理解,相关问题的研究更具有挑战性。其中,大规模复杂场景实时人物识别主要集中在人脸检测、人物特征理解以及场景分析等,是复杂场景下人物视觉理解技术的重要研究基础;个体行为分析与群体交互理解主要集中在视频行人重识别、视频动作识别、视频问答和视频对话等,是视觉理解的关键行为组成部分;同时,在个体行为分析和群体交互理解中,形成综合利用知识与先验的机器学习模式,包含视觉问答对话、视觉语言导航两个重点研究方向;情感的识别与合成主要集中在人脸表情识别、语音情感识别与合成以及知识引导下视觉分析等方面,是情感交互的核心技术。本文围绕上述核心关键技术,阐述复杂场景下人物视觉理解领域的研究热点与应用场景,总结国内外相关成果与进展,展望该领域的前沿技术与发展趋势。  相似文献   

15.
图书馆将直面人工智能带来的革新。从人工智能的概念与研究领域分析,延伸到重要分支——计算机视觉理论与应用研究。在此基础上,探讨计算机视觉在图书馆智能空间中智能安防、空间利用情况数据收集与分析、增强现实体验方面的建设,指出基于计算机视觉图书馆智能空间建设的障碍,包括计算机视觉技术与业务场景的融合、馆员相关专业技术能力和综合管理建设。  相似文献   

16.
视觉—惯性导航定位技术是一种利用视觉传感器和惯性传感器实现载体的自定位和周围环境感知的无源导航定位方式,可以在全球定位系统(global positioning system,GPS)拒止环境下实现载体6自由度位姿估计。视觉和低精度惯性传感器具有体积小和价格低的优势,得益于二者在导航定位任务中的互补特性,视觉—惯性导航系统(visual inertial navigation system,VINS)引起了极大关注,在移动端的虚拟现实(virtual reality,VR)、增强现实(augmented reality,AR)以及无人系统的自主导航任务中发挥了重要作用,具有重要的理论研究价值和实际应用需求。本文介绍视觉—惯性导航系统,总结概括该系统中初始化、视觉前端处理、状态估计、地图的构建与维护以及信息融合等关键技术的研究进展。对非理想环境下及基于学习方法的视觉—惯性导航定位算法等热点问题进行综述,总结用于算法评测的方法及标准数据集,阐述该技术在实际应用中所面临的主要问题,并针对这些问题对该领域未来的发展趋势进行展望。  相似文献   

17.
可供性是指在环境内物体所提供的一系列交互可能,描述环境属性与个体之间的连接过程。其中,视觉可供性研究即通过使用图像、视频等视觉数据,探究视觉主体与环境或物体交互的可能性,涉及到场景识别、动作识别、物体检测等相关领域。视觉可供性可广泛应用于机器人、场景理解等领域。根据目前已有的相关研究,按功能可供性、行为可供性、社交可供性三方面对视觉可供性进行分类,并针对每一类可供性检测方法按照传统机器学习方法和深度学习方法进行详细论述。对当前典型的视觉可供性数据集进行归纳与分析,对视觉可供性的应用方向及未来可能的研究方向进行讨论。  相似文献   

18.
文章阐述了视觉语言在平面设计中的重要地位。通过对平面设计三要素的分析,从文字、色彩、图形三个方面对视觉语言在平面设计中的表现形式进行论述。结合一些设计作品,介绍如何在实际平面设计中应用视觉语言。  相似文献   

19.
该文对多媒体视觉语言含义、构成和在多媒体课件中的作用等方面做了相应的阐述,对多媒体听觉语言及交互语言和视觉语言互相配合更好地发挥多媒体课件优越性进行了探讨。  相似文献   

20.
该文对多媒体视觉语言含义、构成和在多媒体课件中的作用等方面做了相应的阐述,对多媒体听觉语言及交互语言和视觉语言互相配合更好地发挥多媒体课件优越性进行了探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号