期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郑彬彬贾珈蔡莲红《软件》2011,32(5)

为从语音中获取包括字面含义和说话人情绪状态在内的全面意图信息,提出了一种基于多模态信息融合的语音意图理解方法,并对其中的关键词抽取、命令解析、基于文本/韵律特征的情绪状态检测以及多模态信息融合等关键算法进行了设计.该方法从识别文本和语音信号中抽取不同模态的信息并进行融合,能够有效地从语音中获取丰富的意图信息,有助于建立自然的人机交互环境. 相似文献

2.

面向视觉语言理解与生成的多模态预训练方法

刘天义吴祖煊陈静静姜育刚《软件学报》2023,34(5):2024-2034

大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation, UniVL). UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据. UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法. 相似文献

3.

基于模态预融合的三维指称表达理解

袁琨鹏米金鹏陈智谦《计算机应用研究》2023,40(12)

三维指称表达理解（3D VG）旨在通过理解指称表达来准确定位三维场景中的目标对象。现有3D VG研究通过引入文本和视觉分类任务优化文本和视觉编码器,这种方法可能由于文本和视觉特征的语义不对齐,从而导致模型难以在场景中定位文本描述的视觉对象。此外,3D VG数据集有限的数据量和复杂的模型结构往往导致模型过拟合。针对上述问题提出MP3DVG模型,通过学习统一的多模态特征表示完成单模态分类和3D VG任务,并降低模型的过拟合。基于跨模态特征交互提出TGV和VGT模块,在单模态任务之前预融合文本和视觉特征,减小不同模态特征因语义不对齐带来的不利影响。基于线性分类器可评价样本特征多样性的特性,提出周期性初始化的辅助分类器,并通过动态损失调节项自适应地调节样本损失,弱化模型的过拟合。大量实验结果表明所提方法的优越性,相比于MVT模型,MP3DVG在Nr3D和Sr3D数据集上性能分别提升1.1%和1.8%,模型的过拟合现象得到显著改善。相似文献

4.

一种基于多模态深度特征融合的视觉问答模型

邹芸竹杜圣东滕飞李天瑞《计算机科学》2023,(2):123-129

大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。相似文献

5.

融合知识表征的多模态Transformer场景文本视觉问答

下载免费PDF全文

余宙俞俊朱俊杰匡振中《中国图象图形学报》2022,27(9):2761-2774

目的现有视觉问答方法通常只关注图像中的视觉物体,忽略了对图像中关键文本内容的理解,从而限制了图像内容理解的深度和精度。鉴于图像中隐含的文本信息对理解图像的重要性,学者提出了针对图像中场景文本理解的“场景文本视觉问答”任务以量化模型对场景文字的理解能力,并构建相应的基准评测数据集TextVQA(text visual question answering)和ST-VQA(scene text visual question answering)。本文聚焦场景文本视觉问答任务,针对现有基于自注意力模型的方法存在过拟合风险导致的性能瓶颈问题,提出一种融合知识表征的多模态Transformer的场景文本视觉问答方法,有效提升了模型的稳健性和准确性。方法对现有基线模型M4C(multimodal multi-copy mesh)进行改进,针对视觉对象间的“空间关联”和文本单词间的“语义关联”这两种互补的先验知识进行建模,并在此基础上设计了一种通用的知识表征增强注意力模块以实现对两种关系的统一编码表达,得到知识表征增强的KR-M4C(knowledge-representation-enhan... 相似文献

6.

多模态数据融合综述

下载免费PDF全文

任泽裕王振超柯尊旺李哲吾守尔·斯拉木《计算机工程与应用》2021,57(18):49-64

随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛.不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据.多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合.自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息.面对保... 相似文献

7.

基于多模态融合的人脸反欺骗算法研究

颜增显孔超欧卫华《计算机技术与发展》2022,(4):63-68,85

人脸反欺骗技术可以准确判断捕获的人脸图像是真实人脸还是虚假人脸,是人脸识别系统安全的重要保障.传统的人脸反欺骗方法主要是利用手工设计的特征,如LBP、HoG、SIFT、SURF和DoG来刻画真实人脸和虚假人脸之间的不同特征分布,但人工设计的特征难以适应无约束环境下(如光照、背景的变化)的人脸反欺骗问题.鉴于此,该文提出... 相似文献

8.

基于多模态融合的三维模型检索算法研究

王亚郑博文张欣《计算机应用研究》2021,38(3):685-688,695

为了获得更好的三维模型检索分类性能,基于深度学习模型研究了多模态信息融合对三维模型的特征描述,在训练步骤提出相关性损失函数来指导不同模态之间的训练,提取更稳健的特征向量;最后将融合特征应用于三维模型的检索和分类,在ModelNet40数据集上进行了三维模型分类任务和检索任务评估。实验结果及与现有方法进行的对比证明了该方法的优越性,为三维模型检索分类领域提供了一种新的思路。相似文献

9.

多模态视觉跟踪方法综述

下载免费PDF全文

李成龙鹿安东刘磊汤进《中国图象图形学报》2023,28(1):37-56

目标跟踪是计算机视觉研究中的前沿和热点问题,在安全监控、无人驾驶等领域中有着重要的应用价值。然而,目前基于可见光数据的视觉跟踪方法,在光照变化、恶劣天气下因数据质量受限难以实现鲁棒跟踪。因此,一些研究者提出了多模态视觉跟踪任务,通过引入其他模态数据,包括红外模态、深度模态、事件模态以及文本模态,在一定程度上弥补了可见光模态在恶劣天气、遮挡、快速运动和外观歧义等条件下的不足。多模态视觉跟踪旨在挖掘可见光和其他模态数据的互补优势,在视频中实现鲁棒的目标定位,对全天时全天候感知有着重要的价值和意义,受到越来越多的研究和关注。由于主流的多模态视觉跟踪方法针对可见光—红外跟踪展开,因此,本文以阐述可见光—红外跟踪方法为主,从信息融合的角度将现有方法划分为结合式融合和判别式融合,分别进行了详细介绍和分析,并对不同类方法的优缺点进行了分析和比较。然后,本文对其他多模态视觉跟踪任务的研究工作进行了介绍,并对不同多模态视觉跟踪任务的优缺点进行了分析和比较。最后,本文对多模态视觉跟踪方法进行了总结并对未来发展进行展望。相似文献

10.

面向自动驾驶目标检测的深度多模态融合技术

下载免费PDF全文

张新钰邹镇洪李志伟刘华平李骏《智能系统学报》2020,15(4):758-771

研究者关注利用多个传感器来提升自动驾驶中目标检测模型的准确率,因此对目标检测中的数据融合方法进行研究具有重要的学术和应用价值。为此,本文总结了近年来自动驾驶中深度目标检测模型中的数据融合方法。首先介绍了自动驾驶中深度目标检测技术和数据融合技术的发展,以及已有的研究综述;接着从多模态目标检测、数据融合的层次、数据融合的计算方法3个方面展开阐述,全面展现了该领域的前沿进展;此外,本文提出了数据融合的合理性分析,从方法、鲁棒性、冗余性3个角度对数据融合方法进行了讨论;最后讨论了融合方法的一些公开问题,并从挑战、策略和前景等方面作了总结。相似文献

11.

基于感知重采样和多模态融合的连续情感识别

李健张倩陈海丰李晶王丽燕《计算机应用研究》2023,40(12)

情感识别在人机交互中发挥着重要的作用,连续情感识别因其能检测到更广泛更细微的情感而备受关注。在多模态连续情感识别中,针对现有方法获取的时序信息包含较多冗余以及多模态交互信息捕捉不全面的问题,提出基于感知重采样和多模态融合的连续情感识别方法。首先感知重采样模块通过非对称交叉注意力机制去除模态冗余信息,将包含时序关系的关键特征压缩到隐藏向量中,降低后期融合的计算复杂度。其次多模态融合模块通过交叉注意力机制捕捉模态间的互补信息,并利用自注意力机制获取模态内的隐藏信息,使特征信息更丰富全面。在Ulm-TSST和Aff-Wild2数据集上唤醒度和愉悦度的CCC均值分别为63.62%和50.09%,证明了该模型的有效性。相似文献

12.

一种新的地物与地形的网格融合方法

下载免费PDF全文

李强姜昱明《计算机工程与应用》2008,44(12):207-209

三维地形可视化中重要的地物模型需要使用CAD软件（3D Studio MAX/AutoCAD（3D）/MultiGen）构建的模型数据,来逼真表示城市的精细结构、材质特征及地物的内部形态,在将其和地形网格集成的过程中,必须让地物和地形之间实现无缝融合。提出了一种新的地物和地形的融合方法：首先读取地形高度图,利用基于四叉树的LOD技术生成地形网格,其次导入三维地物模型并放置于地形网格某位置,对三维地物模型投影得到地物模型的底面网格边界框及点集,地物边界框对应的地形网格分裂,产生融合位置的地形网格边界及对应点集,根据地物网格边界和地形网格边界的这两个点集以及Delauney三角形限定条件生成三角网,实现网格融合。利用该方法实现了四叉树LOD技术生成的地形和地物的融合,最后讨论了该方法的特点及应用。相似文献

13.

融合语义先验和渐进式深度优化的宽基线3维场景重建 总被引：1，自引：0，他引：1

下载免费PDF全文

姚拓中左文辉安鹏宋加涛《中国图象图形学报》2019,24(4):603-614

目的基于视觉的3维场景重建技术已在机器人导航、航拍地图构建和增强现实等领域得到广泛应用。不过,当相机出现较大运动时则会使得传统基于窄基线约束的3维重建方法无法正常工作。方法针对宽基线环境,提出了一种融合高层语义先验的3维场景重建算法。该方法在马尔可夫随机场（MRF）模型的基础上,结合超像素的外观、共线性、共面性和深度等多种特征对不同视角图像中各个超像素的3维位置和朝向进行推理,从而实现宽基线条件下的初始3维重建。与此同时,还以递归的方式利用高层语义先验对相似深度超像素实现合并,进而对场景深度和3维模型进行渐进式优化。结果实验结果表明,本文方法在多种不同的宽基线环境,尤其是相机运动较为剧烈的情况下,依然能够取得比传统方法更为稳定而精确的深度估计和3维场景重建效果。结论本文展示了在宽基线条件下如何将多元图像特征与基于三角化的几何特征相结合以构建出精确的3维场景模型。本文方法采用MRF模型对不同视角图像中超像素的3维位置和朝向进行同时推理,并结合高层语义先验对3维重建的过程提供指导。与此同时,还使用了一种递归式框架以实现场景深度的渐进式优化。实验结果表明,本文方法在不同的宽基线环境下均能够获得比传统方法更接近真实描述的3维场景模型。相似文献

14.

图像与点云多重信息感知关联的三维多目标跟踪

下载免费PDF全文

刘祥李辉程远志孔祥振陈双敏《中国图象图形学报》2024,29(1):163-178

目的三维多目标跟踪是一项极具挑战性的任务,图像和点云的多模态融合能够提升多目标跟踪性能,但由于场景的复杂性以及多模态数据类型的不同,融合的充分性和关联的鲁棒性仍是亟待解决的问题。因此,提出图像与点云多重信息感知关联的三维多目标跟踪方法。方法首先,提出混合软注意力模块,采用通道分离技术对图像语义特征进行增强,更好地实现通道和空间注意力之间的信息交互。然后,提出语义特征引导的多模态融合网络,将点云特征、图像特征以及逐点图像特征进行深度自适应持续融合,抑制不同模态的干扰信息,提高网络对远距离小目标以及被遮挡目标的跟踪效果。最后,构建多重信息感知亲和矩阵,利用交并比、欧氏距离、外观信息和方向相似性等多重信息进行数据关联,增加轨迹和检测的匹配率,提升跟踪性能。结果在KITTI和NuScenes两个基准数据集上进行评估并与较先进跟踪方法进行对比。KITTI数据集上,HOTA(higher order tracking accuracy)和MOTA(multi-object tracking accuracy)指标分别达到76.94%和88.12%,相比于对比方法中性能最好的模型,分别提升1.... 相似文献

15.

交互式三维虚拟校园的设计 总被引：3，自引：0，他引：3

石巧珍刘晓蒋刚毅《电脑与信息技术》2003,11(4):1-5

文章应用图像处理和计算机图形学的知识，基于3DS Max和Cult3D软件平台，提出了一种交互式三维虚拟现实系统的设计方案。文章重点介绍了基于3DSMax的模型制作过程和基于Cult3D的交互功能设计过程，并以宁波大学为例完成了一个交互式三维虚拟校园的设计，取得了较好的实时性、交互性和良好的视觉效果。相似文献

16.

基于图形语义理解的三维重建技术

畅通包宏《计算机工程与设计》2005,26(9):2274-2276

分析了目前三维重建的方法所面临的困难和存在的问题,介绍了基于图形语义理解的三维重建技术的方法和过程,指出利用基于图形语义理解的三维重建方法的可行性与必要性,指出利用语义理解在解决三维重建面临的困难时所发挥的作用.最后,介绍了利用相图语义的理解对金属相图进行三维重建的过程和方法. 相似文献

17.

“三维视觉—语言”推理技术的前沿研究与最新趋势

下载免费PDF全文

雷印杰徐凯郭裕兰杨鑫武玉伟胡玮杨佳琪汪汉云《中国图象图形学报》2024,29(6):1747-1764

三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以完成相应的任务。此种范式称做“三维视觉—语言”推理,在自动驾驶、机器人导航以及人机交互等众多领域广泛应用,已经成为计算机视觉领域中备受瞩目的研究方向。过去几年间,“三维视觉—语言”推理技术迅猛发展,呈现出百花齐放的趋势,但是目前依然缺乏对最新研究进展的全面总结。本文聚焦于两类最具代表性的研究工作,锚框预测和内容生成类的“三维视觉—语言”推理技术,系统性概括领域内研究的最新进展。首先,本文总结了“三维视觉—语言”推理的问题定义和现存挑战,同时概述了一些常见的骨干网络。其次,本文按照方法所关注的下游场景,对两类“三维视觉—语言”推理技术做了进一步细分,并深入探讨了各方法的优缺点。接下来,本文对比分析了各类方法在不同基准数据集上的性能。最后,本文展望了“三维视觉—语言”推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。相似文献

18.

面向虚拟装配的三维交互平台 总被引：14，自引：0，他引：14

田丰程成陈由迪戴国忠《计算机辅助设计与图形学学报》2002,14(3):193-198

针对当前装配领域的特点，提出一个面向虚拟装配的三维交互平台（Virtual Assembly Toolkit,VAT），VAT中包含了新的三维交互思想，定义了装配领域中常有的三维交互原语，设计和实现了交互原语的捕获，解释和处理框架，同时，VAT封装了三维图形构造，零件间的约束和碰撞检测等功能，VAT可以大大简化虚拟装配应用的构造，便于应用的快速生成。相似文献