期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙亚男温玉辉舒叶芷刘永进《图学学报》2022,43(6):1159-1169

近年来,利用计算机技术实现基于多模态数据的情绪识别成为自然人机交互和人工智能领域重要的研究方向之一。利用视觉模态信息的情绪识别工作通常都将重点放在脸部特征上,很少考虑动作特征以及融合动作特征的多模态特征。虽然动作与情绪之间有着紧密的联系,但是从视觉模态中提取有效的动作信息用于情绪识别的难度较大。以动作与情绪的关系作为出发点,在经典的 MELD 多模态情绪识别数据集中引入视觉模态的动作数据,采用 ST-GCN 网络模型提取肢体动作特征,并利用该特征实现基于 LSTM 网络模型的单模态情绪识别。进一步在 MELD 数据集文本特征和音频特征的基础上引入肢体动作特征,提升了基于 LSTM 网络融合模型的多模态情绪识别准确率,并且结合文本特征和肢体动作特征提升了上下文记忆模型的文本单模态情绪识别准确率, 实验显示虽然肢体动作特征用于单模态情绪识别的准确度无法超越传统的文本特征和音频特征,但是该特征对于多模态情绪识别具有重要作用。基于单模态和多模态特征的情绪识别实验验证了人体动作中含有情绪信息,利用肢体动作特征实现多模态情绪识别具有重要的发展潜力。相似文献

2.

基于多模态信息的视频描述算法

《微型机与应用》2019,(7)

为了挖掘视频中不同的模态信息,提出一种基于多模态信息的视频描述算法。在基本的编码解码器网络基础上,更加关注视频多模态信息和高级语义属性。在编码器阶段,提取视频的静态特征、光流特征和视频段特征,同时设计语义属性检测网络得到视频高级语义特征。为了避免解码器阶段的曝光偏差和训练损失与评价准则不统一的问题,采用基于强化学习的训练算法直接将客观评价准则作为优化目标来训练模型。所提出的算法在公开视频描述数据集MSVD上取得了很好的实验效果。相似文献

3.

基于深度学习框架的多模态动作识别

韩敏捷《计算机与现代化》2017,(7):48

提出一种基于深度神经网络的多模态动作识别方法,根据不同模态信息的特性分别采用不同的深度神经网络,适应不同模态的视频信息,并将多种深度网络相结合,挖掘行为识别的多模态特征。主要考虑人体行为静态和动态2种模态信息,结合微软Kinect的多传感器摄像机获得传统视频信息的同时也能获取对应的深度骨骼点信息。对于静态信息采用卷积神经网络模型,对于动态信息采用递归循环神经网络模型。最后将2种模型提取的特征相融合进行动作识别和分类。在MSR 3D的行为数据库上实验结果表明,本文的方法对动作识别具有良好的分类效果。相似文献

4.

基于自注意力的多模态LSTM的动作预测

莫晨邵洁《计算机工程与设计》2022,43(4):1083-1088

针对视频动作预测领域的算法在不同预测时间预测效果不稳定的缺陷,提出一种基于自注意力机制的多模态LSTM的动作预测模型。综合考虑3种视频特征,采用位置编码及自注意力机制编码3种模态特征,得到具有丰富语义的高层特征;使用LSTM结构总结视频的历史信息,产生不同预测时间的动作预测结果;完成多模态特征的子网络的训练后,采取多模型融合策略将子网络的预测输出进行融合。实验结果表明,在EPIC-Kitchens数据集上的预测精度稳定在38%,在EGTEAGaze+数据集上的预测精度稳定在77%。相似文献

5.

多模态数据的行为识别综述

下载免费PDF全文

王帅琛黄倩张云飞李兴聂云清雒国萃《中国图象图形学报》2022,27(11):3139-3159

行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法（RGB模态）、基于运动变化和外观的方法（深度模态）以及基于骨骼特征的方法（骨骼模态）等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势。最后,总结了行为识别技术当前面临的问题和挑战,并基于数据模态的角度提出了未来可行的研究方向和研究重点。相似文献

6.

基于深度神经网络的多模态信息检索

李光宇《计算机应用与软件》2022,39(1):219-224,249

为了提高大数据中多模态信息的检索效果,提出一种基于深度神经网络的多模态信息检索算法。设计深度自编码器,将不同模态的数据投影到一个相同的广义子空间内;利用稀疏编码技术降低共同特征向量的维度,过滤冗余特征和噪声特征;通过去卷积操作和上采样操作对数据进行重建。基于公开模态识别数据集的实验结果表明,该算法能够有效地学习和泛化多模态数据,且在多模态检索实验中也表现出较好的性能。相似文献

7.

基于深度学习的行为识别多模态融合方法综述

詹健浩吴鸿伟周成祖陈晓筹李晓潮《计算机系统应用》2023,32(1):41-49

行为识别是通过对视频数据进行处理分析从而让计算机理解人的动作和行为.不同模态数据在外观、姿态、几何、光照和视角等主要特征上各有优势,通过多模态融合将这些特征进行融合可以获得比单一模态数据更好的识别效果.本文对现有行为识别多模态融合方法进行介绍,对比了它们之间的特点以及获得的性能提升,包括预测分数融合、注意力机制、知识蒸馏等晚期融合方法,以及特征图融合、卷积、融合结构搜索、注意力机制等早期融合方法.通过这些分析和比较归纳出未来多模态融合的研究方向. 相似文献

8.

结合深度神经网络的网络监控系统微表情识别

罗予东李振坤《计算机应用与软件》2023,(7):172-179+191

为了提高网络监控系统微表情识别的效果,结合深度神经网络技术提出新的智能监控系统微表情识别算法。将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合,利用卷积神经网络提取目标的空间特征,再将卷积特征表示为直方图,结合直方图和卷积神经网络两者的优势设计新的人体追踪算法;设计跨模态监督的深度神经网络训练方法,将可见光视频数据送入深度神经网络进行训练,利用近红外光视频对训练程序进行监督。基于公开的多模态微表情识别数据集完成了验证实验,结果显示该算法有效地提高了微表情识别的性能。相似文献

9.

基于多模态融合的城市道路场景视频描述模型研究

李铭兴徐成李学伟刘宏哲闫晨阳廖文森《计算机应用研究》2023,40(2)

城市道路视频描述存在仅考虑视觉信息而忽视了同样重要的音频信息的问题,多模态融合算法是解决此问题的方案之一。针对现有基于Transformer的多模态融合算法都存在着模态之间融合性能低、计算复杂度高的问题,为了提高多模态信息之间的交互性,提出了一种新的基于Transformer的视频描述模型多模态注意力瓶颈视频描述（multimodal attention bottleneck for video captioning,MABVC）。首先使用预训练好的I3D和VGGish网络提取视频的视觉和音频特征并将提取好的特征输入到Transformer模型当中,然后解码器部分分别训练两个模态的信息再进行多模态的融合,最后将解码器输出的结果经过处理生成人们可以理解的文本描述。在通用数据集MSR-VTT、MSVD和自建数据集BUUISE上进行对比实验,通过评价指标对模型进行验证。实验结果表明,基于多模态注意力融合的视频描述模型在各个指标上都有明显提升。该模型在交通场景数据集上依旧能够取得良好的效果,在智能驾驶行业具有很大的应用前景。相似文献

10.

多文化场景下的多模态情感识别

陈师哲王帅金琴《软件学报》2018,29(4):1060-1070

自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了在多文化场景下的多模态情感识别问题.我们从语音声学和面部表情等模态分别提取了不同的情感特征,包括传统的手工定制特征和基于深度学习的特征,并通过多模态融合方法结合不同的模态,比较不同单模态特征和多模态特征融合的情感识别性能.我们在CHEAVD中文多模态情感数据集和AFEW英文多模态情感数据集进行实验,通过跨文化情感识别研究,我们验证了文化因素对于情感识别的重要影响,并提出3种训练策略提高在多文化场景下情感识别的性能,包括：分文化选择模型、多文化联合训练以及基于共同情感空间的多文化联合训练,其中基于共同情感空间的多文化联合训练通过将文化影响与情感特征分离,在语音和多模态情感识别中均取得最好的识别效果. 相似文献

11.

面向多模态视频时刻检索的查询感知跨模态双重对比学习网络

尹梦冉梁美玉于洋曹晓雯杜军平薛哲《软件学报》2024,35(5)

近期,跨模态视频语料库时刻检索（VCMR）这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络（QACLN）,该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 相似文献

12.

基于人脸图像和脑电的连续情绪识别方法

李瑞新蔡兆信王冰冰潘家辉《计算机系统应用》2021,30(2):1-11

基于多模态生理数据的连续情绪识别技术在多个领域有重要用途,但碍于被试数据的缺乏和情绪的主观性,情绪识别模型的训练仍需更多的生理模态数据,且依赖于同源被试数据.本文基于人脸图像和脑电提出了多种连续情绪识别方法.在人脸图像模态,为解决人脸图像数据集少而造成的过拟合问题,本文提出了利用迁移学习技术训练的多任务卷积神经网络模型.在脑电信号模态,本文提出了两种情绪识别模型:第一个是基于支持向量机的被试依赖型模型,当测试数据与训练数据同源时有较高准确率;第二个是为降低脑电信号的个体差异性和非平稳特性对情绪识别的影响而提出的跨被试型模型,该模型基于长短时记忆网络,在测试数据和训练数据不同源的情况下也具有稳定的情绪识别性能.为提高对同源数据的情绪识别准确率,本文提出两种融合多模态决策层情绪信息的方法:枚举权重方法和自适应增强方法.实验表明:当测试数据与训练数据同源时,在最佳情况下,双模态情绪识别模型在情绪唤醒度维度和效价维度的平均准确率分别达74.23%和80.30%;而当测试数据与训练数据不同源时,长短时记忆网络跨被试型模型在情绪唤醒度维度和效价维度的准确率分别为58.65%和51.70%. 相似文献

13.

多层校正的无监督领域自适应方法

下载免费PDF全文

姚明海方存亮《中国图象图形学报》2019,24(9):1528-1536

目的目前深度神经网络已成功应用于众多机器学习任务,并展现出惊人的性能提升效果。然而传统的深度网络和机器学习算法都假定训练数据和测试数据服从的是同一分布,而这种假设在实际应用中往往是不成立的。如果训练数据和测试数据的分布差异很大,那么由传统机器学习算法训练出来的分类器的性能将会大大降低。为了解决此类问题,提出了一种基于多层校正的无监督领域自适应方法。方法首先利用多层校正来调整现有的深度网络,利用加法叠加来完美对齐源域和目标域的数据表示;然后采用多层权值最大均值差异来适应目标域,增加网络的表示能力;最后提取学习获得的域不变特征来进行分类,得到目标图像的识别效果。结果本文算法在Office-31图像数据集等4个数字数据集上分别进行了测试实验,以对比不同算法在图像识别和分类方面的性能差异,并进行准确度测量。测试结果显示,与同领域算法相比,本文算法在准确率上至少提高了5%,在应对照明变化、复杂背景和图像质量不佳等干扰情况时,亦能获得较好的分类效果,体现出更强的鲁棒性。结论在领域自适应相关数据集上的实验结果表明,本文方法具备一定的泛化能力,可以实现较高的分类性能,并且优于其他现有的无监督领域自适应方法。相似文献

14.

双流网络信息交互机制下的微表情识别

朱伟杰陈莹《计算机辅助设计与图形学学报》2021,33(4):545-552

针对深度学习的方法用于微表情识别时微表情识别的实验数据库非常稀缺,导致神经网络在学习的过程中知识获取有限而难以提高精度及泛化能力的问题,提出基于双流网络信息交互的微表情识别方法.通过改进的深度互学习策略引导图像序列不同模态之间的交互训练,提高网络的识别率.方法基于RGB图像序列建立主体网络,基于光流建立辅助网络;在训练阶段,通过设计互学习损失中的有监督学习损失和拟态损失,优化训练过程,使得每一种模态都能学习正确地预测训练样本的真实标识,同时能与其他模态的预测相匹配;在测试阶段,由于互学习机制增强了RGB分支的判别能力,因此可对光流分支进行剪裁,在保证精度的前提下提高识别速度.在CASME,CASMEⅡ和SMIC数据库上的实验结果表明,该方法有效地提高了识别精度,整体性能优于已有方法. 相似文献

15.

基于关键帧筛选网络的视听联合动作识别

陈亭秀尹建芹《计算机应用》2022,42(3):731-735

近年来,视听联合学习的动作识别获得了一定关注。无论在视频（视觉模态）还是音频（听觉模态）中,动作发生是瞬时的,往往在动作发生时间段内的信息才能够显著地表达动作类别。如何更好地利用视听模态的关键帧携带的显著表达动作信息,是视听动作识别待解决的问题之一。针对该问题,提出关键帧筛选网络KFIA-S,通过基于全连接层的线性时间注意力机制赋予每个时刻视听信息不同权重,从而筛选益于视频分类的视听特征,减少重复冗余信息,抑制背景干扰信息,提升动作识别精度。研究了不同强度的时间注意力对动作识别的影响。在ActivityNet数据集上的实验表明,KFIA-S网络达到了最先进的识别精度,证明了所提方法的有效性。相似文献

16.

基于跨模态自蒸馏的零样本草图检索

田加林徐行沈复民申恒涛《软件学报》2022,33(9):3152-3164

零样本草图检索将未见类的草图作为查询样本,用于检索未见类的图像。因此,这个任务同时面临两个挑战：草图和图像之间的模态差异以及可见类和未见类的不一致性。过去的方法通过将草图和图像投射到一个公共空间来消除模态差异,还通过利用语义嵌入（如词向量和词相似度）来弥合可见类和未见类的语义不一致。在本文中,我们提出了跨模态自蒸馏方法,从知识蒸馏的角度研究可泛化的特征,无需语义嵌入参与训练。具体而言,我们首先通过传统的知识蒸馏将预训练的图像识别网络的知识迁移到学生网络。然后,通过草图和图像的跨模态相关性,跨模态自蒸馏将上述知识间接地迁移到草图模态的识别上,提升草图特征的判别性和泛化性。为了进一步提升知识在草图模态内的集成和传播,我们进一步地提出草图自蒸馏。通过为数据学习辨别性的且泛化的特征,学生网络消除了模态差异和语义不一致性。我们在三个基准数据集,即Sketchy、TU-Berlin和QuickDraw,进行了广泛的实验,证明了我们提出的跨模态自蒸馏方法与当前方法相比较的优越性。相似文献

17.

A kernel learning framework for domain adaptation learning

TAO JianWen CHUNG FuLai & WANG ShiTong 《中国科学:信息科学(英文版)》2012,(9):1983-2007

Domain adaptation learning(DAL) methods have shown promising results by utilizing labeled samples from the source(or auxiliary) domain(s) to learn a robust classifier for the target domain which has a few or even no labeled samples.However,there exist several key issues which need to be addressed in the state-of-theart DAL methods such as sufficient and effective distribution discrepancy metric learning,effective kernel space learning,and multiple source domains transfer learning,etc.Aiming at the mentioned-above issues,in this paper,we propose a unified kernel learning framework for domain adaptation learning and its effective extension based on multiple kernel learning(MKL) schema,regularized by the proposed new minimum distribution distance metric criterion which minimizes both the distribution mean discrepancy and the distribution scatter discrepancy between source and target domains,into which many existing kernel methods(like support vector machine(SVM),v-SVM,and least-square SVM) can be readily incorporated.Our framework,referred to as kernel learning for domain adaptation learning(KLDAL),simultaneously learns an optimal kernel space and a robust classifier by minimizing both the structural risk functional and the distribution discrepancy between different domains.Moreover,we extend the framework KLDAL to multiple kernel learning framework referred to as MKLDAL.Under the KLDAL or MKLDAL framework,we also propose three effective formulations called KLDAL-SVM or MKLDAL-SVM with respect to SVM and its variant μ-KLDALSVM or μ-MKLDALSVM with respect to v-SVM,and KLDAL-LSSVM or MKLDAL-LSSVM with respect to the least-square SVM,respectively.Comprehensive experiments on real-world data sets verify the outperformed or comparable effectiveness of the proposed frameworks. 相似文献

18.

Multimodal Data Fusion for Few-shot Named Entity Recognition Method

下载免费PDF全文

Tianming Zhang Shan Zhang Xi Liu Bin Cao Jing Fan 《International Journal of Software and Informatics》2024,14(1):73-96

As a crucial subtask in Natural Language Processing (NLP), Named Entity Recognition (NER) aims to extract import information from text, which can help many downstream tasks such as machine translation, text generation, knowledge graph construction, and multimodal data fusion to deeply understand the complex semantic information of the text and effectively complete these tasks. In practice, due to time and labor costs, NER suffers from annotated data scarcity, known as few-shot NER. Although few-shot NER methods based on text have achieved good generalization performance, the semantic information that the model can extract is still limited due to the few samples, which leads to the poor prediction effect of the model. To this end, in this paper we propose a few-shot NER model based on multimodal data fusion, which provides additional semantic information with multimodal data for the first time, to help the model prediction and can further effectively improve the effect of multimodal data fusion and modeling. This method converts image information into text information as auxiliary modality information, which effectively solves the problem of poor modality alignment caused by the inconsistent granularity of semantic information contained in text and images. In order to effectively consider the label dependencies in few-shot NER, we use the CRF framework and introduce the state-of-the-art meta-learning methods as the emission module and the transition module. To alleviate the negative impact of noise samples in the auxiliary modal samples, we propose a general denoising network based on the idea of meta-learning. The denoising network can measure the variability of the samples and evaluate the beneficial extent of each sample to the model. Finally, we conduct extensive experiments on real unimodal and multimodal datasets. The experimental results show the outstanding generalization performance of the proposed method, where our method outperforms the state-of-the-art methods by 10 F1 scores in the 1-shot scenario. 相似文献