首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
为提升车辆重识别算法的性能,提出一种基于车辆组件特征与多注意力融合的特征学习方法.首先,修改深度残差网络以获取具有丰富语义信息的特征图,同时应用语义分割网络将车辆图像划分为车辆正面、背面、顶面、侧面及背景区域,以实现组件特征提取并消除视角变化的影响.然后,设计多注意力融合模块,基于面积注意力与特征注意力实现组件特征的自适应融合.最后,在多任务学习框架下,优化车辆重识别的三元组损失与辅助分类任务的交叉熵与焦点损失,对网络参数进行训练.在多个数据集上的实验结果表明,提出的方法在大多数性能指标上均超越了现有方法.进一步的消融实验证明了多注意力融合模块与多任务损失函数在特征提取上的有效性.  相似文献   

2.
针对现有室内场景识别方法仅通过关注视觉信息本身,而缺乏考虑图像中所含语义内容,提出一种基于长短期记忆神经网络和卷积神经网络的融合深度神经网络室内场景识别方法.首先使用labelImg工具为Visual Genome数据集图像生成位置描述符,经数据预处理算法处理后通过GloVe模型得到词向量.然后引入带有L2正则化的小批...  相似文献   

3.
在近些年的研究中,单设备的声音场景分类已经取得不错的效果,然而多设备声音场景分类的进展缓慢。为了解决多设备分类时样本数量差异大的问题,提出了一种配对特征融合算法。通过计算每一对配对样本在频谱图上的差异,将这些差异累加后取平均,可以获得各个设备的平均频谱特征,用于设备样本的转换。该算法在增加设备样本数量的同时有效提升了模型的泛化能力。同时,为了获取全局信息,提出了一种轻量级注意力模块,通过对输入特征在频域上压缩后进行自注意力操作,可以在减少计算量的基础上使模型专注于整个声音序列信息的训练,实验结果表明所提算法在模型大小和分类精度方面与其他方法相比具有较好的优势。  相似文献   

4.
赵广文  王阳  杨晨 《计算机仿真》2022,39(2):184-190
针对现有的U-Net编解码结构网络的边缘模糊以及上下文信息提取能力弱等问题,提出了在编解码结构网络基础上融合反向注意力和金字塔模块的图像分割网络。网络以Res2Net50作为特征编码器提取特征,在编码器与解码器中引入尺度感知金字塔融合模块,加强网络对上下文信息的提取能力,然后在跳跃连接处加入反向注意力模块,用以提取边缘结构信息,最后使用特征拼接融合特征信息,提升网络模型分割性能。实验结果证明,改进的网络在Liver CT、Finding lungs in CT以及CHAOS数据集上的分割精度均有一定的提升,可以有效改善分割图像边缘模糊等问题。  相似文献   

5.
微表情的变化是非常微小的,这使得微表情的研究非常困难。微表情是不能伪造和压制的,因此也成为判断人们主观情感的重要依据。本文提出了以卷积神经网络及改进长短时记忆网络特征融合为依托的微表情识别方法,先介绍了相关的背景知识,再介绍了实验的预处理过程、特征提取以及相应的特征融合的过程,将所得的结果用于实验模型的预测分类。实验结果表明,新模型具有更好的识别率。  相似文献   

6.
针对基于传统机器学习遥感图像场景分类无法快速有效提取图像特征造成分类结果不准确的问题,提出一种基于注意力残差网络的遥感图像场景分类的方法,以残差网络为基准模型,在通道和空间两个维度上建立注意力模块,实验过程中对参数进行合理有效的设置,调整网络层数优化模型,达到对UC Merced Land-Use数据集的有效分类.实验结果表明,与基于卷积神经网络结构的遥感图像场景分类方法相比,该方法达到了98.1%的准确率.  相似文献   

7.
针对现有的卷积神经网络模型算法对人脸表情特征表达能力不足、识别精度不高、模型参数量大的问题,提出一种融入注意力的残差网络人脸表情识别方法。该方法在特征提取部分利用卷积块注意力模块(Convolutional Block Attention Module, CBAM)增强对判别性特征的表示;通过残差结构的卷积层提取表情特征;利用Softmax进行表情分类。实验结果表明,与原ResNet模型方法相比,以较小参数量的增加取得更好的识别效果,在FER2013、JAFFE和CK+数据集上的识别率分别提升了2.68百分点、6.40百分点和6.06百分点,与其他相关方法的对比也证明了其有效性。  相似文献   

8.
随着无人机技术的不断发展,无人机多目标跟踪已成为无人机应用的关键技术之一.针对无人机视频中的复杂背景干扰、遮挡、视点高度和角度多变等问题,提出一种基于注意力特征融合的无人机多目标跟踪算法.首先,将改进的卷积注意力模块引入残差网络,建立三元组注意力特征提取网络;其次,在特征金字塔网络的结构上加入新的特征融合通道,设计多尺度特征融合模块,增强模型对多尺度目标的特征表达能力;最后,根据目标的重识别特征匹配与检测框匹配得到目标轨迹.仿真实验结果表明,该算法可有效提升无人机多目标跟踪的精度,具有较好的鲁棒性.  相似文献   

9.
目的 基于深度学习的端到端场景文本识别任务已经取得了很大的进展。然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果。为了提高掩码预测的准确率,提出了一种基于软注意力的掩码嵌入模块(soft attention mask embedding,SAME),方法 利用Transformer更好的全局感受野,将高层特征进行编码并计算软注意力,然后将编码特征与预测掩码层级嵌入,生成更贴近文本边界的掩码来抑制背景噪声。基于SAME强大的文本掩码优化及细粒度文本特征提取能力,进一步提出了一个健壮的文本识别框架SAME-Net,开展无需字符级注释的端到端精准文本识别。具体来说,由于软注意力是可微的,所提出的SAME-Net可以将识别损失传播回检测分支,以通过学习注意力的权重来指导文本检测,使检测分支可以由检测和识别目标联合优化。结果 在多个文本识别公开数据集上的实验表明了所提方法的有效性。其中,SAME-Net在任意形状文本数据集Total-Text上实现了84.02%的H-mean,相比于2022年的GLASS(global to local attention for scene-text spotting),在不增加额外训练数据的情况下,全词典的识别准确率提升1.02%。所提方法在多向数据集ICDAR 2015(International Conference on Document Analysis and Recognition)也获得了与同期工作相当的性能,取得83.4%的强词典识别结果。结论 提出了一种基于SAME的端到端文本识别方法。该方法利用Transformer的全局感受野生成靠近文本边界的掩码来抑制背景噪声,提出的SAME模块可以将识别损失反向传输到检测模块,并且不需要额外的文本校正模块。通过检测和识别模块的联合优化,可以在没有字符级标注的情况下实现出色的文本定位性能。  相似文献   

10.
余慧瑾  方勇纯  韦知辛 《机器人》2021,43(6):706-714
现有的场景识别方法准确率低,适应能力不强.为此,将自主发育神经网络应用于机器人场景识别任务,提出了2种将自主发育网络与多传感器融合技术相结合的场景识别方法,即基于加权贝叶斯融合的机器人场景识别方法,以及基于同一自主发育网络架构数据融合的场景识别方法,分别在决策层以及数据层对多传感器信息进行融合,提高了场景识别的准确度,而自主发育网络则提升了识别方法针对各种复杂场景的适应能力.对于所提出的场景识别方法进行了实验测试与分析,证实了其有效性及实用性.此外,由于在同一网络架构下进行数据融合可更高效地利用数据,因此这种方法在场景识别的准确度方面具有更为优越的性能.  相似文献   

11.
为解决卷积神经网络提取特征遗漏、手势多特征提取不充分问题,本文提出基于残差双注意力与跨级特征融合模块的静态手势识别方法.设计了一种残差双注意力模块,该模块对ResNet50网络提取的低层特征进行增强,能够有效学习关键信息并更新权重,提高对高层特征的注意力,然后由跨级特征融合模块对不同阶段的高低层特征进行融合,丰富高级特征图中不同层级之间的语义和位置信息,最后使用全连接层的Softmax分类器对手势图像进行分类识别.本文在ASL美国手语数据集上进行实验,平均准确率为99.68%,相比基础ResNet50网络准确率提升2.52%.结果验证本文方法能充分提取与复用手势特征,有效提高手势图像的识别精度.  相似文献   

12.
微表情指当人们试图隐藏或抑制自己的真实情感时,脸上出现的一种无法控制的肌肉运动.此类情绪面部表情由于具有持续时间短、动作幅度小、难以掩饰和抑制的特点,因此其识别精度受到了制约.为了应对这些挑战,文中提出一种结合特征融合和注意力机制的微表情识别方法,同时考虑了光流特征和人脸特征,通过进一步加入注意力机制来提升识别性能.该...  相似文献   

13.
卷积神经网络在手势识别领域应用广泛,但现有的卷积神经网络存在特征表征不足的问题,导致手势识别精度较低。提出一种轻量级静态手势识别算法r-mobilenetv2,通过串联通道注意力与空间注意力,将两者输出的特征图以跳跃连接的形式线性相加,得到一种全新的注意力机制。使用一维卷积调整低层特征的通道维度,将低级特征与经过上采样的高层特征进行空间维度匹配及通道维度匹配,并进行线性相加,其结果经卷积操作后与高层特征按通道维度连接,从而实现特征融合。在此基础上,将所提注意力机制与特征融合相结合,并用于改进后的轻量级网络MobileNetV2中,得到r-mobilenetv2算法。实验结果表明,与MobileNetV2算法相比,r-mobilenetv2算法的参数量降低了27%,错误率下降了1.82个百分点。  相似文献   

14.
特征采样和特征融合的子图像人脸识别方法   总被引:3,自引:0,他引:3  
朱玉莲  陈松灿 《软件学报》2012,23(12):3209-3220
提出一种基于特征采样和特征融合的子图像人脸识别方法(RS-SpCCA).首先,对子图像进行特征采样;然后,将全局特征和采样后的特征使用CCA进行信息融合,以获取包含全局特征和局部特征的相关特征;最后,在相关特征上构建分量分类器.在该方法中,特征采样是为了构建更多且多样的分量分类器;而引入特征融合思想是为了充分利用图像的全局特征.AR,Yale和ORL这3个数据库上的实验结果表明,基于特征采样和特征融合的子图像方法(RS-SpCCA)优于单纯的信息融合方法(SpCCA)和特征采样方法(Semi-RS).  相似文献   

15.
一种基于特征融合的人脸识别新方法   总被引:2,自引:0,他引:2  
提出了一种基于特征融合的人脸识别新方法。首先采用两种不同的K-L变换分别降低原始图像空间的维数,避开人脸识别小样本集的局限,然后利用复向量将同一样本的两组特征向量合并在一起,通过运用具有统计不相关性的复线性鉴别分析来抽取人脸图像的有效鉴别特征,最后在ORL人脸库上实验结果表明所提出的方法不仅识别性能优于经典的Fisherfaces,而且仅用14个特征识别率就达到96%。  相似文献   

16.
针对驾驶场景中目标检测卷积神经网络模型检测精度较低的问题,提出一种基于改进RefineDet网络结构的多尺度特征融合目标检测方法。在RefineDet网络结构中嵌入LFIP(Light-weight Featurized Image Pyramid,轻量级特征化的图像金字塔)网络,将LFIP网络生成的多尺度特征图与RefineDet中的ARM(Anchor Refinement Module,锚点框修正模块)输出的主特征图相融合,提升特征层中锚点框初步分类和回归的输出效果,为ODM(Object Detection Module,目标检测模块)模块提供修正的锚点框以便于进一步回归和多类别预测;在RefineDet网络结构中的ODM之后嵌入多分支结构RFB(Receptive Field Block,感受野模块),在检测任务中获得不同尺度的感受野以改善主干网络中提取的特征。将模型中的激活函数替换为带有可学习参数的非线性激活函数PReLU(Parametric Rectified Linear Unit,参数化修正线性单元),加快网络模型的收敛速度;将RefineDet的边界框回归损失函数替换为排斥力损失函数Repulsion Loss,使目标检测中的某预测框更靠近其对应的目标框,并使该预测框远离附近的目标框及预测框,可以提升遮挡情况下目标检测的精度;构建驾驶视觉下的目标检测数据集,共计48 260张,其中38 608张作为训练集,9 652张作为测试集,并在主流的GPU硬件平台进行验证。该方法的mAP为85.59%,优于RefineDet及其他改进算法;FPS为41.7 frame/s,满足驾驶场景目标检测的应用要求。实验结果表明,该方法在检测速度略微下降的情况,能够较好地提升驾驶视觉下的目标检测的精确度,并能够一定程度上解决驾驶视觉下的遮挡目标检测和小目标检测的问题。  相似文献   

17.
基于半监督特征融合的监控视频场景识别研究   总被引:1,自引:0,他引:1  
针对单模态特征条件下监控视频的场景识别精度与鲁棒性不高的问题,提出一种基于特征融合的半监督学习场景识别系统.系统模型首先通过卷积神经网络预训练模型分别提取视频帧与音频的场景描述特征;然后针对场景识别的特点进行视频级特征融合;接着通过深度信念网络进行无监督训练,并通过加入相对熵正则化项代价函数进行有监督调优;最后对模型分...  相似文献   

18.
城市功能区的划分与识别对分析城市功能区的分布现状和了解城市内部空间结构具有重要意义。这激发了多源地理空间数据融合的需求,特别是城市遥感数据与社会感知数据的融合。然而,如何有效实现城市遥感数据与社会感知数据的融合是一个技术难题。为了实现城市遥感数据与社会感知数据的融合,提高城市功能识别精度,以遥感图像和社会感知数据为例,引入多模态数据融合机制,提出了一种联合深度学习与集成学习的模型来推断城市区域功能。该模型分别利用DenseNet和DPN网络,从多源地理空间数据中提取城市遥感图像特征和社会感知特征,并进行特征级融合、决策级融合以及混合融合的多层级数据融合,对城市功能进行识别。所提模型在URFC数据集上得到了验证,其混合融合总体分类准确度、Kappa系数和平均F1值3个评价指标值分别为74.29%,0.67,71.92%。相比单模态数据的最佳分类方法,所提融合模型的3个评价指标值分别提高了18.83%,0.24,35.46%。实验结果表明,该数据融合模型具有更好的分类性能,能有效融合遥感图像数据和社会感知数据,实现城市区域功能的精准识别。  相似文献   

19.
为了降低人脸表情识别过程中特征分类的计算量,采用了一种基于特征融合降维的表情识别算法。该算法首先对表情图像进行预处理,再利用Gabor小波多尺度多方向的特性对图像进行滤波,针对同一尺度下8个不同方向的几幅特征图像,对其中特征值最大的图像编码作为新特征图像的像素值,此时特征图像的维数降为原来的1/8。最后利用统计直方图对融合后的特征图像进行分块特征统计,将统计信息作为最终的特征信息进行分类。实验结果表明,该方法在保证人脸表情识别率的前提下减少了特征图像的计算量,提高了系统效率。  相似文献   

20.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号