期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谷学静王志良贺杰郑思仪王巍《计算机科学》2011,38(11):216-219

提出了应用于智能家居老年人帮助的新型多模态人机交互模式。构建了基于avatar的智能家居人机交互原型系统,集成了语音处理和视线追踪功能,实现了视觉和听觉双通道交互;同时采用基于规则的任务推理方法感知用户任务信息。测试结果表明,该交互模式提高了老年人的交互体验。相似文献

2.

基于多模态特征交互的RGB-D显著性目标检测

高悦戴蒙张晴《计算机工程与应用》2024,(2):211-220

现有的大多数RGB-D显著性目标检测方法利用深度图来提高检测效果,而忽视了其质量的影响。低质量的深度图会对最终显著目标预测结果造成污染,影响显著性检测的性能。为了消除低质量深度图带来的干扰,并准确突出RGB图像中的显著目标,提出了一个用于多模态特征交互的RGB-D显著性目标检测模型。在编码阶段,设计了一个特征交互模块,其包含三个子模块：用于增强特征表述能力的全局特征采集子模块、用于过滤低质量深度信息的深度特征精炼子模块和用于实现特征融合的多模态特征交互子模块。在解码阶段,逐层融合经过特征交互后的多模态特征,实现多层次特征融合。通过在五个基准数据集上与十二种先进方法进行的综合实验表明,该模型在NLPR、SIP和NJU2K数据集上的指标上均优于其他对比方法,其中在NJU2K数据集上,该模型的性能比第二名在平均F值上提升了0.008,加权F值上提升了0.014,E-measure上提升了0.007,表现出了较好的检测效果。相似文献

3.

多模态人机交互综述

下载免费PDF全文

陶建华巫英才喻纯翁冬冬李冠君韩腾王运涛刘斌《中国图象图形学报》2022,27(6):1956-1987

多模态人机交互旨在利用语音、图像、文本、眼动和触觉等多模态信息进行人与计算机之间的信息交换。在生理心理评估、办公教育、军事仿真和医疗康复等领域具有十分广阔的应用前景。本文系统地综述了多模态人机交互的发展现状和新兴方向,深入梳理了大数据可视化交互、基于声场感知的交互、混合现实实物交互、可穿戴交互和人机对话交互的研究进展以及国内外研究进展比较。本文认为拓展新的交互方式、设计高效的各模态交互组合、构建小型化交互设备、跨设备分布式交互、提升开放环境下交互算法的鲁棒性等是多模态人机交互的未来研究趋势。相似文献

4.

面向多模态情感分析的双模态交互注意力

包广斌李港乐王国雄《计算机科学与探索》2022,16(4):909-916

针对现有多模态情感分析方法中存在情感分类准确率不高,难以有效融合多模态特征等问题,通过研究分析相邻话语之间的依赖关系和文本、语音和视频模态之间的交互作用,建立一种融合上下文和双模态交互注意力的多模态情感分析模型.该模型首先采用双向门控循环单元(BiGRU)捕获各模态中话语之间的相互依赖关系,得到各模态的上下文信息.为了... 相似文献

5.

多模态数据融合综述

下载免费PDF全文

任泽裕王振超柯尊旺李哲吾守尔·斯拉木《计算机工程与应用》2021,57(18):49-64

随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求,如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构,总结了三个常见的融合模型,简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面,对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题,并提出未来的研究方向。相似文献

6.

基于模态信息交互的多模态情感分析

蔡宇扬蒙祖强《计算机应用研究》2023,(9):2603-2608

基于全局语义交互的粗粒度注意力机制不能有效利用各模态间的语义关联提取到模态信息中的关键部分，从而影响分类结果。针对这个问题提出了一个模态信息交互模型MII(modal information interaction),通过细粒度注意力机制提取模态的局部语义关联特征并用于情感分类。首先，模态内信息交互模块用于构建模态内的联系并生成模态内交互特征，随后模态间信息交互模块利用图像(文本)的模态内交互特征生成门控向量来关注文本(图像)中相关联的部分，从而得到模态间的交互特征。考虑到特征中存在的冗余信息，模型加入了自适应特征融合模块，从全局特征层面对特征进行选择，增强了包含情感信息的关键特征的表达能力，弱化了冗余信息对分类结果的影响。在MVSA-Single和MVSA-Multi两个公开数据集上的实验结果表明，该模型优于一系列基线模型。相似文献

7.

图文语义增强的多模态命名实体识别方法

下载免费PDF全文

徐玺王海荣王彤马赫《计算机应用研究》2024,41(6)

为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以全面描述图文数据的语义信息;采用Transformer和跨模态注意力机制,挖掘图文特征间的互补语义关系,以引导特征融合,从而生成语义补全的文本表征和语义增强的多模态表征;整合边界检测、实体类别检测和命名实体识别任务,构建了多任务标签解码器,该解码器能对输入特征进行细粒度语义解码,以提高预测特征的语义准确性;使用这个解码器对文本表征和多模态表征进行联合解码,以获得全局最优的预测标签。在Twitter-2015和Twitter-2017基准数据集的大量实验结果显示,该方法在平均F1值上分别提升了1.00%和1.41%,表明该模型具有较强的命名实体识别能力。相似文献

8.

基于交互注意力机制的多模态情感识别算法

姚懿秦《计算机应用研究》2021,38(6):1689-1693

在多模态语音情感识别中,现有的研究通过提取大量特征来识别情感,但过多的特征会导致关键特征被淹没在相对不重要特征里,造成关键信息遗漏.为此提出了一种模型融合方法,通过两种注意力机制来寻找可能被遗漏的关键特征.本方法在IEMOCAP数据集上的四类情感识别准确率相比现有文献有明显提升;在注意力机制可视化下,两种注意力机制分别找到了互补且对人类情感识别重要的关键信息,从而证明了所提方法相比传统方法的优越性. 相似文献

9.

面向自然交互的多通道人机对话系统 总被引：1，自引：0，他引：1

杨明浩陶建华李昊巢林林《计算机科学》2014,41(10):12-18,35

人们在对话过程中,除了使用口语交互外,还会很自然地利用表情、姿态等多模态信息辅助交流。重点分析并阐述了如何将这些多模态交互方式有效地融合到人机对话模型中,并实现一个面向自然交互的多模态人机对话系统。首先根据不同通道(如情感、头姿)对语音交互的影响,将它们主要分为信息互补、信息融合和信息独立3种模式,并针对3种模式分别采用不同的方式实现输入信息的多模态融合。信息融合后的对话管理,采用有限自动机、填槽法和混合主导方式的对话管理策略。针对对话中的情感处理,提出一种情感状态预测网络来记录用户的情感变化,并根据话语的轮转的不同对话上下文对用户情绪变化进行及时反馈,该对话模型能比较灵活地处理用户在对话过程中呈现的多模态信息。信息输出方面,针对人机对话中较为常用的数字虚拟人的行为控制,提出了一种简化的多模态协同置标语言,实现了虚拟人的包括情感、姿态与语音的同步表达,提高了虚拟人的表现力。最后基于以上关键技术,实现了一个面向城市路况信息查询的多模态自然人机对话系统。多个用户的体验表明,相对于传统的语音人机对话模型,多通道自然人机对话系统能有效提高用户交互的自然度。相似文献

10.

多模态深度学习综述

下载免费PDF全文

孙影影贾振堂朱昊宇《计算机工程与应用》2020,56(21):1-10

模态是指人接收信息的方式,包括听觉、视觉、嗅觉、触觉等多种方式。多模态学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习的目的是建立能够处理和关联来自多种模式信息的模型,它是一个充满活力的多学科领域,具有日益重要和巨大的潜力。目前比较热门的研究方向是图像、视频、音频、文本之间的多模态学习。着重介绍了多模态在视听语音识别、图文情感分析、协同标注等实际层面的应用,以及在匹配和分类、对齐表示学习等核心层面的应用,并针对多模态学习的核心问题:匹配和分类、对齐表示学习方面给出了说明。对多模态学习中常用的数据集进行了介绍,并展望了未来多模态学习的发展趋势。相似文献

11.

基于触觉交互界面的虚拟现实警务训练系统

张金文张伟宋爱国《测控技术》2024,43(4):83-88

虚拟现实凭借着其高沉浸感的体验,在警务仿真培训中有着广泛应用,由于商用虚拟现实系统多关注视觉反馈,难以使用标准的手控器为警务培训提供逼真的触觉交互体验。触觉交互界面基于多功能的离散单点触控交互系统,可实现虚拟现实中的道具操作直接交互,针对虚拟训练中的警务场景,该系统能够识别用户所选道具,并响应用户的交互动作,以提高虚拟现实系统的交互真实性。该系统使用HTC Vive 追踪器对用户进行运动捕捉,以生成人体骨架驱动虚拟代理。同时,使用单片机获取并处理用户的道具选择信息及用户与道具的交互信息,再通过蓝牙通信传输至上位机。硬件设计采用 STM32F103 系列中的 C8T6 最小系统板,相关功能通过软件 Keil5 编程实现。实验验证了系统的正确性和可行性,能够提供多样的物理触觉代理,增强了虚拟环境中的交互体验。该系统为虚拟现实交互技术提供了新的思路和方向,具有很好的应用前景。相似文献

12.

基于增强人机交互技术的虚拟装配 总被引：6，自引：1，他引：6

彭涛李世其王峻峰徐迟《计算机辅助设计与图形学学报》2009,21(3)

提出了基于虚实融合、增强信息和约束代理的增强交互技术,从视觉、信息和操作三个方面来改善虚拟装配环境的人机交互效率.虚实融合在保留虚拟现实全部交互方式的同时附加真实装配场景来丰富装配过程感知;基于文字和特征表示的增强信息为用户提供装配知识来引导装配操作;约束代理及其匹配规则可视化重建零件装配约束关系并避免了复杂计算.增强人机交互技术为虚拟装配的应用提供了一种便捷的交互手段.最后介绍了虚拟装配辅助支持平台的体系构架,并用实例说明了虚拟装配系统的运行流程. 相似文献

13.

基于ZigBee技术的信息交互系统设计与实现

下载免费PDF全文

倪莉陈世瑜吕钊吴小培 《计算机测量与控制》2015,23(5):1689-1692

基于生物电的人-机交互(HCI)技术作为特殊场景下常规人-机交互方法的一种补充,具有非常广阔的应用前景;为了解决基于生物电的HCI系统中多用户通信问题,文章设计并实现了一种基于ZigBee技术的信息交互系统;该系统主要由ZigBee无线通信模块、信息生成/处理模块、串口通信模块三部分组成,用以实现多用户间使用眼电信号(EOG)进行无线信息交互;在实验室环境下,眼电信号有效检出率98.2％,传输距离在无遮挡、无路由的情况下可达到70 m;实验结果表明该系统具有识别率高、稳定性好、配置简单、使用方便等优点,具有较强的实际应用价值. 相似文献

14.

Model Implementation and Analysis of a True Three-dimensional Display System

Ye Tian Yang Yang Han Yang Ze Ji 《计算机系统科学与工程》2021,39(3):403-414

To model a true three-dimensional (3D) display system, we introduced the method of voxel molding to obtain the stereoscopic imaging space of the system. For the distribution of each voxel, we proposed a four-dimensional (4D) Givone–Roessor (GR) model for state-space representation—that is, we established a local state-space model with the 3D position and one-dimensional time coordinates to describe the system. First, we extended the original elementary operation approach to a 4D condition and proposed the implementation steps of the realization matrix of the 4D GR model. Then, we described the working process of a true 3D display system, analyzed its real-time performance, introduced the fixed-point quantization model to simplify the system matrix, and derived the conditions for the global asymptotic stability of the system after quantization. Finally, we provided an example to prove the true 3D display system’s feasibility by simulation. The GR-model-representation method and its implementation steps proposed in this paper simplified the system’s mathematical expression and facilitated the microcontroller software implementation. Real-time and stability analyses can be used widely to analyze and design true 3D display systems. 相似文献

15.

Adding method to meaning: A technique for exploring peoples' experience with technology

《Behaviour & Information Technology》2012,31(2):175-187

相似文献

16.

智能人机交互中第一视角手势表达的一次性学习分类识别

鹿智秦世引李连伟张鼎豪《自动化学报》2021,47(6):1284-1301

在智能人机交互中, 以交互人的视角为第一视角的手势表达发挥着重要作用, 而面向第一视角的手势识别则成为最重要的技术环节. 本文通过深度卷积神经网络的级联组合, 研究复杂应用场景中第一视角下的一次性学习手势识别(One-shot learning hand gesture recognition, OSLHGR)算法. 考虑到实际应用的便捷性和适用性, 运用改进的轻量级SSD (Single shot multibox detector)目标检测网络实现第一视角下手势目标的快速精确检测; 进而, 以改进的轻量级U-Net网络为主要工具进行复杂背景下手势目标的像素级高效精准分割. 在此基础上, 以组合式3D深度神经网络为工具, 研究提出了一种第一视角下的一次性学习手势动作识别的网络化算法. 在Pascal VOC 2012数据集和SoftKinetic DS325采集的手势数据集上进行的一系列实验测试结果表明, 本文所提出的网络化算法在手势目标检测与分割精度、分类识别准确率和实时性等方面都有显著的优势, 可为在复杂应用环境下实现便捷式高性能智能人机交互提供可靠的技术支持. 相似文献