共查询到20条相似文献,搜索用时 62 毫秒
1.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性. 相似文献
2.
杜鹏举 《自动化与仪器仪表》2023,(10):23-26
对跨模态数据检索精确性问题,提出一种基于多模态数据融合的检索方法。采用CNN+Bi_LSTM与Glove+Bi_GRU的方法分别对图片和文本数据进行编码,并通过Transforme+LSTM对编码后数据分别提取图像和文本的语义特征,使用同模态下与不同模态间的多种相似度损失函数,对提取的图像和文本语义特征进行监督和优化。最终根据查询样本与检索结果之间的语义相似度,确定正确检索结果。实验证明,设计的多模态数据融合与检索模型,相较于其他跨模态搜索分类模型,辨别损失更低。且在模型各部分功能上,无论是引入LSTM的多模态特征提取模块,还是基于双尺度相似性计算的语义建模方法,都在数据检索中发挥了一定的作用,当k=12时,本模型相较于传统特征提取模型R@K均值9.9,相较于仅采用中线性分类器代替双尺度相似度的本模型、与仅移除LSTM使用三个头进行语义特征提取的本模型,R@K均值分别高出4.3、2.0;mAP的均值相较于其他三个模型分别高出0.12、0.07、0.03。相较于其他基线跨模态数据检索模型而言,提出的多模态数据融合与检索模型则具有更好的检索结果。当k=12时,相较于LSCO、MADLG、D... 相似文献
3.
匹配分数是传统的融合分数指标,但是其不能很好地区分类内和类间数据,分类置信度虽然可以较好地将类内类间数据分开,但对于匹配分数仅次于分类阈值的数据,其分类效果不是很理想.因此,首先提出了一种基于分类距离分数的融合分数指标,其不仅携带一级分类信息,也含有匹配分数与分类阈值之间的距离信息,可增大融合后类内类间分数之间的距离,为融合算法提供了一个具有有效判别信息的特征融合集,提高了融合指标的利用率;进一步,利用信息熵表示信息价值多少的这一特性,定义特征关联系数和特征权重系数,并将加权融合和传统SUM规则统一在一个自适应算法框架中,提高了融合识别率.实验结果验证了所提出方法的有效性. 相似文献
4.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。 相似文献
5.
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F3模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F3 相似文献
6.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。 相似文献
7.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,... 相似文献
8.
9.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。 相似文献
10.
PD (Parkinson’s disease) 的运动障碍会累及口、咽、腭肌以及面部肌肉,引起声带震颤和面部运动迟缓,为利用声纹和面部特征识别PD患者提供了可能。为了有效利用以上两种特征以提高PD 识别率,提出了基于多尺度特征与动态注意力机制的多模态循环融合模型对患者进行识别检测。首先,设计了多尺度特征提取网络,将高、低层级特征的语义信息融合以得到完整的特征信息;其次,在多尺度特征融合过程中为了充分考虑模态间的相关性和互补性,提出了以不同模态信息互为辅助条件生成注意力特征图的动态注意力机制算法,降低特征融合时信息的冗余;最后设计了多模态循环融合模型,通过计算循环矩阵的每个行向量与特征向量间的哈达玛积得到更有效的融合特征,提高了模型性能。在自建数据集上进行的多组实验结果表明,提出的方法识别准确率高达96.24%,优于当前流行的单模态和多模态识别算法,可以有效区分PD患者和HP (healthy people),为高效识别PD患者奠定了基础。 相似文献
11.
目的 图像的变化检测是视觉领域的一个重要问题,传统的变化检测对光照变化、相机位姿差异过于敏感,使得在真实场景中检测结果较差。鉴于卷积神经网络(convolutional neural networks,CNN)可以提取图像中的深度语义特征,提出一种基于多尺度深度特征融合的变化检测模型,通过提取并融合图像的高级语义特征来克服检测噪音。方法 使用VGG(visual geometry group)16作为网络的基本模型,采用孪生网络结构,分别从参考图像和查询图像中提取不同网络层的深度特征。将两幅图像对应网络层的深度特征拼接后送入一个编码层,通过编码层逐步将高层与低层网络特征进行多尺度融合,充分结合高层的语义和低层的纹理特征,检测出准确的变化区域。使用卷积层对每一个编码层的特征进行运算产生对应尺度的预测结果。将不同尺度的预测结果融合得到进一步细化的检测结果。结果 与SC_SOBS(SC-self-organizing background subtraction)、SuBSENSE(self-balanced sensitivity segmenter)、FGCD(fine-grained change detection)和全卷积网络(fully convolutional network,FCN)4种检测方法进行对比。与性能第2的模型FCN相比,本文方法在VL_CMU_CD(visual localization of Carnegie Mellon University for change detection)数据集中,综合评价指标F1值和精度值分别提高了12.2%和24.4%;在PCD(panoramic change detection)数据集中,F1值和精度值分别提高了2.1%和17.7%;在CDnet(change detection net)数据集中,F1值和精度值分别提高了8.5%和5.8%。结论 本文提出的基于多尺度深度特征融合的变化检测方法,利用卷积神经网络的不同网络层特征,有效克服了光照和相机位姿差异,在不同数据集上均能得到较为鲁棒的变化检测结果。 相似文献
12.
目前,卷积神经网络已成为视觉对象识别的主流机器学习方法。有研究表明,网络层数越深,所提取的深度特征表征能力越强。然而,当数据集规模不足时,过深的网络往往容易过拟合,深度特征的分类性能将受到制约。因此,提出了一种新的卷积神经网络分类算法:并行融合网FD-Net。以网络融合的方式提高特征的表达能力,并行融合网首先组织2个相同的子网并行提取图像特征,然后使用精心设计的特征融合器将子网特征进行多尺度融合,提取出更丰富、更精确的融合特征用于分类。此外,
采用了随机失活和批量规范化等方法协助特征融合器去除冗余特征,并提出了相应的训练策略控制计算开销。最后,分别以经典的ResNet、InceptionV3、DenseNet和MobileNetV2作为基础模型,在UECFOOD-100和Caltech101等数据集上进行了深入的研究和评估。实验结果表明,并行融合网能在有限的训练样本上训练出识别能力更强的分类模型,有效提高图像的分类准确率。 相似文献
13.
为解决现有车型精细识别方法中存在识别精度低、模型参数规模大等问题,提出一种基于特征融合卷积神经网络的车型精细识别方法。设计两个独立网络(UpNet、DownNet)分别用于提取车辆正面图像的上部和下部特征,在融合网络(FusionNet)中进行特征融合,实现车型的精细识别。相较于现有的车型精细识别方法,该方法在提高识别精度的同时,有效压缩了模型参数规模。在基准数据集CompCars下进行大量实验的结果表明,该方法的识别精度可达98.94%,模型参数大小仅为4.9MB。 相似文献
14.
为了提高苹果分级的准确率和稳定性,在图像处理的基础上,基于Fourier描述子和HIS颜色模型分别提取了苹果的形状和颜色两类主要外观特征,并分别用神经网络进行单特征初步分级,将其结果作为证据,通过D-S证据理论进行决策级融合,根据分类阈值得到最终分级结果。实验结果表明,该方法分级正确率达93.75%,与单指标特征分级相比,识别率高,稳定性好。 相似文献
15.
针对人脸校正中单幅图像难以解决大姿态侧脸的问题,提出一种基于多姿态特征融合生成对抗网络(MFFGAN)的人脸校正方法,利用多幅不同姿态侧脸之间的相关信息来进行人脸校正,并采用对抗机制对网络参数进行调整。该方法设计了一种新的网络,包括由多姿态特征提取、多姿态特征融合、正脸合成三个模块组成的生成器,以及用于对抗训练的判别器。多姿态特征提取模块利用多个卷积层提取侧脸图像的多姿态特征;多姿态特征融合模块将多姿态特征融合成包含多姿态侧脸信息的融合特征;而正脸合成模块在进行姿态校正的过程中加入融合特征,通过探索多姿态侧脸图像之间的特征依赖关系来获取相关信息与全局结构,可以有效提高校正结果。实验结果表明,与现有基于深度学习的人脸校正方法相比,所提方法恢复出的正脸图像不仅轮廓清晰,而且从两幅侧脸中恢复出的正脸图像的识别率平均提高了1.9个百分点,并且输入侧脸图像越多,恢复出的正脸图像的识别率越高,表明所提方法可以有效融合多姿态特征来恢复出轮廓清晰的正脸图像。 相似文献
16.
17.
18.
目的 视觉目标跟踪算法主要包括基于相关滤波和基于孪生网络两大类。前者虽然精度较高但运行速度较慢,无法满足实时要求。后者在速度和精度方面取得了出色的跟踪性能,然而,绝大多数基于孪生网络的目标跟踪算法仍然使用单一固定的模板,导致算法难以有效处理目标遮挡、外观变化和相似干扰物等情形。针对当前孪生网络跟踪算法的不足,提出了一种高效、鲁棒的双模板融合目标跟踪方法(siamese tracker with double template fusion,Siam-DTF)。方法 使用第1帧的标注框作为初始模板,然后通过外观模板分支借助外观模板搜索模块在跟踪过程中为目标获取合适、高质量的外观模板,最后通过双模板融合模块,进行响应图融合和特征融合。融合模块结合了初始模板和外观模板各自的优点,提升了算法的鲁棒性。结果 实验在3个主流的目标跟踪公开数据集上与最新的9种方法进行比较,在OTB2015(object tracking benchmark 2015)数据集中,本文方法的AUC(area under curve)得分和精准度分别为0.701和0.918,相比于性能第2的SiamRPN++(siamese region proposal network++)算法分别提高了0.6%和1.3%;在VOT2016(visual object tracking 2016)数据集中,本文方法取得了最高的期望平均重叠(expected average overlap,EAO)和最少的失败次数,分别为0.477和0.172,而且EAO得分比基准算法SiamRPN++提高了1.6%,比性能第2的SiamMask_E算法提高了1.1%;在VOT2018数据集中,本文方法的期望平均重叠和精确度分别为0.403和0.608,在所有算法中分别排在第2位和第1位。本文方法的平均运行速度达到47帧/s,显著超出跟踪问题实时性标准要求。结论 本文提出的双模板融合目标跟踪方法有效克服了当前基于孪生网络的目标跟踪算法的不足,在保证算法速度的同时有效提高了跟踪的精确度和鲁棒性,适用于工程部署与应用。 相似文献
19.
针对人脸校正中单幅图像难以解决大姿态侧脸的问题,提出一种基于多姿态特征融合生成对抗网络(MFFGAN)的人脸校正方法,利用多幅不同姿态侧脸之间的相关信息来进行人脸校正,并采用对抗机制对网络参数进行调整。该方法设计了一种新的网络,包括由多姿态特征提取、多姿态特征融合、正脸合成三个模块组成的生成器,以及用于对抗训练的判别器。多姿态特征提取模块利用多个卷积层提取侧脸图像的多姿态特征;多姿态特征融合模块将多姿态特征融合成包含多姿态侧脸信息的融合特征;而正脸合成模块在进行姿态校正的过程中加入融合特征,通过探索多姿态侧脸图像之间的特征依赖关系来获取相关信息与全局结构,可以有效提高校正结果。实验结果表明,与现有基于深度学习的人脸校正方法相比,所提方法恢复出的正脸图像不仅轮廓清晰,而且从两幅侧脸中恢复出的正脸图像的识别率平均提高了1.9个百分点,并且输入侧脸图像越多,恢复出的正脸图像的识别率越高,表明所提方法可以有效融合多姿态特征来恢复出轮廓清晰的正脸图像。 相似文献
20.
恶意代码分类是一种基于特征进行恶意代码自动家族类别划分的分析方法。恶意代码的多维度特征融合与深度处理,是恶意代码分类研究的一种发展趋势,也是恶意代码分类研究的一个难点问题。本文提出了一种适用于恶意代码分类的高维特征融合方法,对恶意代码的静态二进制文件和反汇编特征等进行提取,借鉴SimHash的局部敏感性思想,对多维特征进行融合分析和处理,最后基于典型的机器学习方法对融合后的特征向量进行学习训练。实验结果和分析表明,该方法能够适应于样本特征维度高而样本数量较少的恶意代码分类场景,而且能够提升分类学习的时间性能。 相似文献