首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

2.
针对室外复杂场景下,目标检测易漏检、鲁棒性较差等问题,笔者提出一种基于深度学习与多模态融合的避雷器目标检测方法.通过利用深度学习的实例分割模型,对RGB图进行目标检测与分割,再利用传统特征提取方法,结合避雷器的先验信息,最终获取避雷器的3D中轴线.实验结果表明,压缩后的AI模型可在CPU上成功部署,具有较高的工程价值....  相似文献   

3.
谣言会对社会生活造成不利影响,同时具有多种模态的网络谣言比纯文字谣言更容易误导用户和传播,这使得对多模态的谣言检测不可忽视。目前关于多模态谣言检测方法没有关注词与图片区域对象之间的特征融合,因此提出了一种基于注意力机制的多模态融合网络AMFNN应用于谣言检测,该方法在词-视觉对象层面进行高级信息交互,利用注意力机制捕捉与关键词语相关的视觉特征;提出了基于自注意力机制的自适应注意力机制Adapive-SA,通过增加辅助条件来约束内部的信息流动,使得模态内的关系建模更有目标性和多样性。在两个多模态谣言检测数据集上进行了对比实验,结果表明,与目前相关的多模态谣言检测方法相比,AMFNN能够合理地处理多模态信息,从而提高了谣言检测的准确性。  相似文献   

4.
针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题,提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法。使用深度卷积神经网络代替传统的手工设计特征方式分别自动从可见模态及红外热模态的图片中提取单模态特征,根据ResNet(Residual Net)的阶段性特征图谱搭建特征金字塔网络,生成每个模态的特征金字塔,并将两个模态的特征金字塔进行逐层融合。选择深度学习通用目标检测算法--Faster R-CNN作为后续的目标定位与分类算法来解决多模态行人检测问题。在特征金字塔融合阶段,针对级联融合和较大值融合容易忽略弱特征,无法有效融合互补特征的问题,提出了一种锐化特征的特征金字塔融合方法,根据阈值强化突出强特征,互补叠加弱特征,有效利用每个模态的特征,进一步提高模型的检测效果。实验结果表明,特征金字塔聚合的多模态行人检测算法可以有效解决多模态行人检测问题,在KAIST数据集上的检测效果超过了目前该数据集上的最佳模型。  相似文献   

5.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

6.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。  相似文献   

7.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。  相似文献   

8.
行为识别是通过对视频数据进行处理分析从而让计算机理解人的动作和行为.不同模态数据在外观、姿态、几何、光照和视角等主要特征上各有优势,通过多模态融合将这些特征进行融合可以获得比单一模态数据更好的识别效果.本文对现有行为识别多模态融合方法进行介绍,对比了它们之间的特点以及获得的性能提升,包括预测分数融合、注意力机制、知识蒸馏等晚期融合方法,以及特征图融合、卷积、融合结构搜索、注意力机制等早期融合方法.通过这些分析和比较归纳出未来多模态融合的研究方向.  相似文献   

9.
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F3模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F3  相似文献   

10.
二维人脸识别受光照、遮挡和姿态的影响较大.为了克服二维人脸识别的缺点,本文提出了一种基于深度学习的多模态融合三维人脸识别算法.该方法首先使用卷积自编码器将彩色图像和深度图进行融合,将融合后的图像作为网络的输入进行预训练,并且设计了一种新的损失函数cluster loss,结合Softmax损失,预训练了一个精度非常高的模型.之后使用迁移学习将预训练的模型进行微调,得到了一个轻量级神经网络模型.将原始数据集进行一系列处理,使用处理之后的数据集作为测试集,测试的识别准确率为96.37%.实验证明,该方法弥补了二维人脸识别的一些缺点,受光照和遮挡的影响非常小,并且相对于使用高精度三维人脸图像的三维人脸识别,本文提出的算法速度快,并且鲁棒性高.  相似文献   

11.
Pang  Yuhang  Li  Fan  Qiao  Xiaoya  Gilman  Andrew 《Multimedia Tools and Applications》2020,79(37-38):27229-27255
Multimedia Tools and Applications - Deep learning-based methods have recently attracted significant attention in visual tracking community, leading to an increase in state-of-the-art tracking...  相似文献   

12.
邓雄  王洪春 《计算机应用》2020,40(4):1009-1015
针对目前基于深度学习的活体检测算法大都基于大型卷积神经网络的问题,提出一种基于轻量级网络MobileNetV2和特征融合的活体检测算法。首先,以改进的MobileNetV2为基础网络分别从RGB、HSV、LBP图中提取特征;然后,将得到的特征图堆叠在一起以进行特征层的融合;最后,从融合后的特征图中继续提取特征,并利用Softmax层作出真假人脸的判断。仿真结果显示,所提算法在NUAA数据集上的等错误率(EER)为0. 02%,在Siw数据集上的ACER(Average Classification Error Rate)为0. 75%,而且测试单张图像仅用时6 ms。实验结果表明:融合不同的信息可以获得更低的错误率,改进的轻量化网络保证了算法的高效性并满足实时性需求。  相似文献   

13.
目的 服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法 提出分层深度哈希检索模型,基于预训练的残差网络ResNet(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果 在Polyvore数据集上,与原始ResNet模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论 提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。  相似文献   

14.
针对运动目标外观或背景变化较大时,采用基于压缩感知的跟踪算法由于特征单一易导致漂移、跟踪不稳定甚至丢失目标等问题,提出了改进的基于自适应特征融合的压缩感知跟踪算法。该算法采用两种随机测量矩阵,分别投影V、H空间得到压缩后的纹理和颜色特征,利用在线计算的特征可靠性相对程度来自适应调整特征加权系数,充分利用两类特征的互补性来增强跟踪稳定性。对不同视频的测试结果表明,提出的方法在目标外观、背景环境变化时仍能准确跟踪目标,在目标大小为70像素×100像素时平均帧率为22帧/s,达到实时性。与提取单一特征的原压缩感知算法相比,改进后的方法在目标外观和背景变化时具有更强的鲁棒性。  相似文献   

15.
16.
针对现有基于深度学习的行人重识别方法对于行人姿态变化、部分遮挡等引起的行人判别特征信息缺失的问题,提出了一种深层特征融合的行人重识别方法。首先,利用卷积层和池化层多次提取网络深层特征,从空间维度提升网络性能,使用融合后的深层特征作为行人图像的全局特征属性;其次,为提高模型的泛化能力,在深层融合特征后加入一个批量归一化层,同时采用标签平滑损失函数和三元组损失函数对模型进行联合训练。实验结果表明,所提的深层特征融合方法具有很好的表达能力。在Market1501、DukeMTMC-reID、CUHK03和MSMT17 4个数据集上对所提方法进行了验证,其中在Market1501数据集上,Rank-1值达到了95.0%,mAP达到了85.6%。  相似文献   

17.
针对现有基于多特征融合的跟踪算法在复杂环境下跟踪准确度不高,且大部分采用单一判定方式来实现多特征融合的问题,提出了一种综合判定的自适应多特征融合跟踪方法。首先引入局部背景信息加强对目标的描述,然后在多特征融合过程中利用多种判定准则计算特征权值,最后在均值漂移框架下完成对目标的跟踪。在各种场景下的实验结果比较表明:该融合算法比单种判定融合有更好的稳定性和鲁棒性,有效地提高了复杂环境下跟踪准确性。  相似文献   

18.
针对mean shift跟踪方法中存在的光照变化不稳定问题,提出了基于梯度特征与彩色特征相融合的mean shift跟踪方法。首先分别提取目标的梯度特征和彩色特征,利用多尺度的相似度计算方法进行特征的匹配,然后通过最大化相似度对目标进行跟踪。通过物体和人体等运动目标的跟踪,验证了改进的跟踪算法在光照变化情况下的鲁棒性优于原有的算法,显著降低了跟踪位置误差。  相似文献   

19.
We present a system for multimedia event detection. The developed system characterizes complex multimedia events based on a large array of multimodal features, and classifies unseen videos by effectively fusing diverse responses. We present three major technical innovations. First, we explore novel visual and audio features across multiple semantic granularities, including building, often in an unsupervised manner, mid-level and high-level features upon low-level features to enable semantic understanding. Second, we show a novel Latent SVM model which learns and localizes discriminative high-level concepts in cluttered video sequences. In addition to improving detection accuracy beyond existing approaches, it enables a unique summary for every retrieval by its use of high-level concepts and temporal evidence localization. The resulting summary provides some transparency into why the system classified the video as it did. Finally, we present novel fusion learning algorithms and our methodology to improve fusion learning under limited training data condition. Thorough evaluation on a large TRECVID MED 2011 dataset showcases the benefits of the presented system.  相似文献   

20.

Information on social media is multi-modal, most of which contains the meaning of sarcasm. In recent years, many people have studied the problem of sarcasm detection. Many traditional methods have been proposed in this field, but the study of deep learning methods to detect sarcasm is still insufficient. It is necessary to comprehensively consider the information of the text,the changes of the tone of the audio signal,the facial expressions and the body posture in the image to detect sarcasm. This paper proposes a multi-level late-fusion learning framework with residual connections, a more reasonable experimental data-set split and two model variants based on different experimental settings. Extensive experiments on the MUStARD show that our methods are better than other fusion models. In our speaker-independent experimental split, the multi-modality has a 4.85% improvement over the single-modality, and the Error rate reduction has an improvement of 11.8%. The latest code will be updated to this URL later: https://github.com/DingNing123/m_fusion

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号