首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
本文针对多模态情绪识别这一新兴领域进行综述。首先从情绪描述模型及情绪诱发方式两个方面对情绪识别的研究基础进行了综述。接着针对多模态情绪识别中的信息融合这一重难点问题,从数据级融合、特征级融合、决策级融合、模型级融合4种融合层次下的主流高效信息融合策略进行了介绍。然后从多种行为表现模态混合、多神经生理模态混合、神经生理与行为表现模态混合这3个角度分别列举具有代表性的多模态混合实例,全面合理地论证了多模态相较于单模态更具情绪区分能力和情绪表征能力,同时对多模态情绪识别方法转为工程技术应用提出了一些思考。最后立足于情绪识别研究现状的分析和把握,对改善和提升情绪识别模型性能的方式和策略进行了深入的探讨与展望。  相似文献   

2.
刘琴  谢珺  胡勇  郝戍峰  郝雅卉 《控制与决策》2024,39(6):2031-2040
多模态对话情绪识别旨在根据多模态对话语境判别出目标话语所表达的情绪类别,是构建共情对话系统的基础任务.现有工作中大多数方法仅考虑多模态对话本身信息,忽略了对话中与倾听者和说话者相关的知识信息,从而限制了目标话语情绪特征的捕捉.为解决该问题,提出一种基于听说知识融合网络的多模态对话情绪识别模型(LSKFN),引入与倾听者和说话者相关的外部常识知识,实现多模态上下文信息和知识信息的有机融合.LSKFN包含多模态上下文感知、听说知识融合、情绪信息汇总和情绪决策4个阶段,分别用于提取多模态上下文特征、融入听说知识特征、消除冗余特征和预测情绪分布.在两个公开数据集上的实验结果表明,与其他基准模型相比,LSKFN能够为目标话语提取到更加丰富的情绪特征,并且获得较好的对话情绪识别效果.  相似文献   

3.
提出一种基于深度神经网络的多模态动作识别方法,根据不同模态信息的特性分别采用不同的深度神经网络,适应不同模态的视频信息,并将多种深度网络相结合,挖掘行为识别的多模态特征。主要考虑人体行为静态和动态2种模态信息,结合微软Kinect的多传感器摄像机获得传统视频信息的同时也能获取对应的深度骨骼点信息。对于静态信息采用卷积神经网络模型,对于动态信息采用递归循环神经网络模型。最后将2种模型提取的特征相融合进行动作识别和分类。在MSR 3D的行为数据库上实验结果表明,本文的方法对动作识别具有良好的分类效果。  相似文献   

4.
针对机械臂抓取检测任务中对未知物体抓取位姿检测精度低、耗时长等问题,提出一种融入注意力机制多模特征抓取位姿检测网络.首先,设计多模态特征融合模块,在融合多模态特征同时对其赋权加强;然后,针对较浅层残差网络提取重点特征能力较弱的问题,引入卷积注意力模块,进一步提升网络特征提取能力;最后,通过全连接层对提取特征直接进行回归拟合,得到最优抓取检测位姿.实验结果表明,在Cornell公开抓取数据集上,所提出算法的图像拆分检测精度为98.9%,对象拆分检测精度为98.7%,检测速度为51FPS,对10类物体的100次真实抓取实验中,成功率为95%.  相似文献   

5.
多模态传感融合对于机器人探索外界环境十分重要,而现有的触觉传感器只能收集一种触觉模态信息,其收集到的多模态信息存在弱配对问题,为了解决此问题,研究了一种基于触觉和视觉融合的多模态触觉传感器。该传感器可以利用一个感知层同时收集2种异构触觉模态信息,弥补了传统触觉传感器的缺陷,同时可以利用收集到的多模态信息对不同物体的几何形状进行分类,在研究过程中,通过按压实验收集了圆形、正方形、长方形和三角形4种形状物体的触觉信息,再利用K最近邻(KNN)算法进行几何形状分类,实验结果证明了该传感器在区分不同物体的形状上具有良好的效果。  相似文献   

6.
近年来多模态情绪识别获得广泛关注,模态间的特征融合决定了情绪识别的效果,现有基于图的情绪特征融合方法多基于二元关系图,在处理三种及以上模态数据时难以实现有效的模态间特征融合,限制了多模态情绪识别的效果.为解决该问题,本文提出基于超图的多模态情绪识别模型(Multi-modal Emotion Recognition Based on Hypergraph,MORAH),引入超图来建立多模态的多元关系,以此替代现有图结构采用的多个二元关系,实现更加充分、高效的多模态特征融合.具体来说,该模型将多模态特征融合分为两个阶段:超边构建阶段和超图学习阶段.在超边构建阶段,通过胶囊网络实现对序列中每个时间步的信息聚合,并建立单模态的图,然后使用图卷积进行第二次信息聚合,并以此作为下一阶段建立超图的基础,得益于图胶囊聚合方法的加入,MORAH可以同时处理对齐数据和未对齐数据,无需手动对齐;在超图学习阶段,模型建立同一样本不同模态节点之间的关联,以及同类样本所有模态之间的关联,同时,在超图卷积过程中,使用分层多级超边来避免过于平滑的节点嵌入,并使用简化的超图卷积方法来融合模型之间的高级特征,以确保所有...  相似文献   

7.
情绪分析一直是自然语言处理领域的研究热点,而多模态情绪分析是当前该领域的一个挑战。已有研究在上下文信息和不同模态时间序列信息交互方面存在不足,该文提出了一个新颖的多层LSTM融合模型(Multi-LSTMs Fusion Model,MLFN),通过分层LSTM分别设置单模态模内特征提取层、双模态和三模态模间融合层进行文本、语音和图像三个模态之间的深度融合,在考虑模态内部信息特征的同时深度捕获模态之间的交互信息。实验结果表明,基于多层LSTM多模态融合网路能够较好地融合多模态信息,大幅度提升多模态情绪识别的准确率。  相似文献   

8.
基于多模态融合的人体动作识别技术被广泛研究与应用,其中基于特征级或决策级的融合是在单一级别阶段下进行的,无法将真正的语义信息从数据映射到分类器。提出一种多级多模态融合的人体动作识别方法,使其更适应实际的应用场景。在输入端将深度数据转换为深度运动投影图,并将惯性数据转换成信号图像,通过局部三值模式分别对深度运动图和信号图像进行处理,使每个输入模态进一步转化为多模态。将所有的模态通过卷积神经网络训练进行提取特征,并把提取到的特征通过判别相关分析进行特征级融合。利用判别相关分析最大限度地提高两个特征集中对应特征的相关性,同时消除每个特征集中不同类之间的特征相关性,将融合后的特征作为多类支持向量机的输入进行人体动作识别。在UTD-MHAD和UTD Kinect V2 MHAD两个多模态数据集上的实验结果表明,多级多模态融合框架在两个数据集上的识别精度分别达到99.8%和99.9%,具有较高的识别准确率。  相似文献   

9.
真实人手抓取数据在人类抓取行为分析和机器人类人抓取等研究中起到至关重要的作用。抓取数据集中应包含复杂形状的三维物体信息、抓取点的信息以及手的姿态和形状,然而目前普遍方法是采集视频图像并从中估计人的抓取行为,导致不能准确记录手部各个关节的自由度信息。利用虚拟现实技术建立虚拟环境,利用数据手套直接捕捉在虚拟环境中三维物体和手部姿态信息作为抓取数据。提出的数据集包含生活中常见的49类物体中的91个不同形状的物体(每个有108个姿态)以及共52 173人次的抓取记录,规模和丰富性都远远超过了已有的用于研究人类的抓取行为和研究以人为核心的抓取技术的数据集。此外,使用采集的数据集进行抓取显著性分析和类人抓取计算,实验结果验证了数据集的应用价值。  相似文献   

10.
针对现有的多模态虚假信息检测方法很少对多模态特征在特征层面进行融合,同时忽略了多模态特征后期融合作用的问题,提出了一种基于CNN多模态特征融合及多分类器混合预测的虚假信息检测模型。首次将多层CNN应用于多模态特征融合,模型首先用BERT和Swin-transformer提取文本和图像特征;随后通过多层CNN对多模态特征在特征层面进行融合,通过简单拼接对多模态特征在句子层面进行融合;最后将2种融合特征输入到不同的分类器中得到2个概率分布,并将2个概率分布按比例进行相加得到最终预测结果。该模型与基于注意力的多模态分解双线性模型(AMFB)相比,在Weibo数据集和Twitter数据集上的准确率分别提升了6.1%和4.3%。实验结果表明,所提模型能够有效提高虚假信息检测的准确率。  相似文献   

11.
Activity detection and classification using different sensor modalities have emerged as revolutionary technology for real-time and autonomous monitoring in behaviour analysis, ambient assisted living, activity of daily living (ADL), elderly care, rehabilitations, entertainments and surveillance in smart home environments. Wearable devices, smart-phones and ambient environments devices are equipped with variety of sensors such as accelerometers, gyroscopes, magnetometer, heart rate, pressure and wearable camera for activity detection and monitoring. These sensors are pre-processed and different feature sets such as time domain, frequency domain, wavelet transform are extracted and transform using machine learning algorithm for human activity classification and monitoring. Recently, deep learning algorithms for automatic feature representation have also been proposed to lessen the burden of reliance on handcrafted features and to increase performance accuracy. Initially, one set of sensor data, features or classifiers were used for activity recognition applications. However, there are new trends on the implementation of fusion strategies to combine sensors data, features and classifiers to provide diversity, offer higher generalization, and tackle challenging issues. For instances, combination of inertial sensors provide mechanism to differentiate activity of similar patterns and accurate posture identification while other multimodal sensor data are used for energy expenditure estimations, object localizations in smart homes and health status monitoring. Hence, the focus of this review is to provide in-depth and comprehensive analysis of data fusion and multiple classifier systems techniques for human activity recognition with emphasis on mobile and wearable devices. First, data fusion methods and modalities were presented and also feature fusion, including deep learning fusion for human activity recognition were critically analysed, and their applications, strengths and issues were identified. Furthermore, the review presents different multiple classifier system design and fusion methods that were recently proposed in literature. Finally, open research problems that require further research and improvements are identified and discussed.  相似文献   

12.
李琦  谢珺  张喆  董俊杰  续欣莹 《计算机工程》2021,47(7):67-73,80
单一模态包含的物体信息有限,导致在物体材质识别分类中表现不佳,而传统多模态融合方法在样本训练过程中需要输入所有数据。提出一种多模态的多尺度局部感受野在线序列极限学习机方法。对物体不同模态样本运用改进的特征提取框架,利用多尺度局部感受野感知样本信息提取特征,并将不同模态特征融合后通过在线序列极限学习机进行训练学习。在线序列极限学习机在训练过程中增量式地输入样本进行训练,当有新数据需要训练时无需对所有数据重新训练。在TUM触觉纹理数据库上进行验证,实验结果表明,多模态融合的分类精度高于单模态的分类精度,且改进的特征提取框架可以显著提升分类性能。  相似文献   

13.
目的 受光照变化、拍摄角度、物体数量和物体尺寸等因素的影响,室内场景下多目标检测容易出现准确性和实时性较低的问题。为解决此类问题,本文基于物体的彩色和深度图像组,提出了分步超像素聚合和多模态信息融合的目标识别检测方法。方法 在似物性采样(object proposal)阶段,依据人眼对显著性物体观察时先注意其色彩后判断其空间深度信息的理论,首先对图像进行超像素分割,然后结合颜色信息和深度信息对分割后的像素块分步进行多阈值尺度自适应超像素聚合,得到具有颜色和空间一致性的似物性区域;在物体识别阶段,为实现物体不同信息的充分表达,利用多核学习方法融合所提取的物体颜色、纹理、轮廓、深度多模态特征,将特征融合核输入支持向量机多分类机制中进行学习和分类检测。结果 实验在基于华盛顿大学标准RGB-D数据集和真实场景集上将本文方法与当前主流算法进行对比,得出本文方法整体的检测精度较当前主流算法提升4.7%,运行时间有了大幅度提升。其中分步超像素聚合方法在物体定位性能上优于当前主流似物性采样方法,并且在相同召回率下采样窗口数量约为其他算法的1/4;多信息融合在目标识别阶段优于单个特征和简单的颜色、深度特征融合方法。结论 结果表明在基于多特征的目标检测过程中本文方法能够有效利用物体彩色和深度信息进行目标定位和识别,对提高物体检测精度和检测效率具有重要作用。  相似文献   

14.
为保证机械臂的抓取精度,保证物体抓取的稳定性,本文设计基于卷积神经网络的机械臂抓取控制系统。在系统硬件部分,加设图像、位置和压力传感器,改装机械臂抓取控制器和运动驱动器,利用图像传感器设备,获取满足质量要求的机械臂抓取目标图像,为机械臂抓取控制功能提供硬件支持。软件部分利用卷积神经网络算法提取图像特征,确定机械臂抓取目标位置。结合机械臂当前位置的检测结果,规划机械臂抓取路线,预估机械臂抓取角度与抓取力。最终通过机械臂抓取参数控制量的计算,在控制器的支持下实现系统的机械臂抓取控制功能。实验结果表明,所设计系统应用下位置控制误差和速度控制误差的平均值分别为0.192m和0.138m/s,同时物体抓取掉落概率明显降低。  相似文献   

15.
为了提高柔性负载抓握机器人的故障检测能力,提出基于神经网络技术的机器人并发故障自动诊断方法。运用高分辨的智能传感器信息识别技术,结合刚度和强度等机械结构特征分析,构建柔性负载抓握机器人的故障信息采集模型,采用变刚度原理,提取柔性负载抓握机器人的振荡信息特征,通过谱特征检测和动态信息融合进行柔性负载抓握机器人的故障信息的多分辨融合和特征聚类处理。通过分析故障样本信息数据参数的估计值,对信息数据进行重组,根据采样信息的差异性对故障类别进行初步判断和识别。采用BP神经网络技术,通过特征分布函数进行故障特征提取,进行机器人并发故障的优化诊断和自适应学习,提高机器人并发故障的有效检测和识别能力。仿真结果表明,采用该方法进行机器人并发故障诊断的自适应性较好,特征辨识能力较强,具有很好的故障监测和模式识别能力。  相似文献   

16.
The aim of this paper is to present a method to guarantee the kinetostatic consistency in observation of human manipulation, i.e. the consistency between the observed hand posture and the tactile information on the contact between the fingertips and the objects. The core idea of the proposed algorithm is to compare the fingertip contact information, obtained by tactile sensors, with the contact information computed in a virtual environment, that reproduces the real environment where the observation is carried out. In case the estimation of the joint angles and the relative pose between the hand and the object are not consistent, a correction of the hand posture is computed. For some tasks, collisions might occur between parts of the hand (e.g. palm) and the grasped object. To handle this problem, the corrected hand posture is computed by adopting a closed loop inverse kinematic (CLIK) approach that exploits the redundant Degrees of Freedom (DoFs) of the hand. The algorithm has been designed to work on-line. This feature is particularly important for Programming by Demonstration (PbD) applications, since it allows the trainer to actively adapt the demonstration to measurement noise and model errors. The effectiveness of the proposed method has been tested in five different tasks: grasping a cup, unscrewing a bottle, grasping a plate, grasping a ketchup bottle, and grasping a measuring cup.  相似文献   

17.
数据融合利用多传感器的信息,克服了单一传感器信息不完整、不精确、不确定的缺点,因此广泛应用于目标识别中,该文提出了一种基于模糊融合的遥感图像目标识别的新方法。首先在单源图像上提取可疑目标,然后根据目标在不同类型图像上的成像特点,选择合适的目标特征,充分考虑到各特征的重要程度,把模糊隶属度函数和模糊密度结合起来,最后利用特征层模糊融合对目标的身份进行判定。此方法应用在实际目标的识别中,取得了很好的效果。  相似文献   

18.
行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势。最后,总结了行为识别技术当前面临的问题和挑战,并基于数据模态的角度提出了未来可行的研究方向和研究重点。  相似文献   

19.
Multi-modal fusion combines multiple modal information to overcome the limitation of incomplete information expressed by a single modality, so as to realize the complementarity of modal information and enhance feature representation. Multi-modal medical signal fusion algorithm and extraction equipment play an important role in improving the recognition accuracy of brain diseases. This paper compared the existing data fusion methods and explored the fusion research of multi-modal bioelectrical signals, including: (1) the challenges and shortcomings in the signal acquisition phase are explored from the biological signal acquisition equipment and scene settings; (2) five multi-modal fusion forms are analyzed; (3) the fusion methods and evaluation indexes are briefly reviewed; (4) the research status and challenges of multi-modal fusion in the field of spatial cognitive impairment and biometrics are explored; (5) the advantages and challenges of multi-modal fusion are described. The conclusion of this review is that the research of multimodal medical signal fusion is in the initial stage, and some studies have proved that multi-modal fusion is meaningful for medical research. However, the fusion algorithm and fusion strategy need to be improved. While learning the relatively perfect image fusion algorithm, we need to develop the fusion algorithm and fusion strategy that is suitable for medical signal and strengthen its feasibility in clinical application.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号