首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
张亚茹  孔雅婷  刘彬 《自动化学报》2022,48(7):1805-1815
现有基于深度学习的立体匹配算法在学习推理过程中缺乏有效信息交互, 而特征提取和代价聚合两个子模块的特征维度存在差异, 导致注意力方法在立体匹配网络中应用较少、方式单一. 针对上述问题, 本文提出了一种多维注意力特征聚合立体匹配算法. 设计2D注意力残差模块, 通过在原始残差网络中引入无降维自适应2D注意力残差单元, 局部跨通道交互并提取显著信息, 为匹配代价计算提供丰富有效的特征. 构建3D注意力沙漏聚合模块, 以堆叠沙漏结构为骨干设计3D注意力沙漏单元, 捕获多尺度几何上下文信息, 进一步扩展多维注意力机制, 自适应聚合和重新校准来自不同网络深度的代价体. 在三大标准数据集上进行评估, 并与相关算法对比, 实验结果表明所提算法具有更高的预测视差精度, 且在无遮挡的显著对象上效果更佳.  相似文献   

2.
单发多框检测器算法(Single Shot Multibox Detector,SSD)采用多个特征层进行目标检测,但每一层都是独立使用的,这种结构忽略了上下文信息,不利于提高小目标检测的精度。为了提高传统SSD算法精度,提出了一种特征信息增强的SSD算法(Feature Information Enhancement Based Single Shot Multibox Detector,FESSD),其核心是一个特征信息增强模块。首先提出一个特征融合模块来对不同特征层进行融合和细化。然后采用一种挤压和激励模块(Squeeze and Excitation block)来自适应地获取每个特征通道的重要程度,从而增强有用信息和抑制无用信息。最后仿真结果表明,相比于传统SSD算法,FESSD算法能够有效地提升目标检测的精度。  相似文献   

3.
近年来随着深度学习技术的不断发展,涌现出各种基于深度学习的语义分割算法,然而绝大部分分割算法都无法实现推理速度和语义分割精度的兼得.针对此问题,提出一种多通道深度加权聚合网络(MCDWA_Net)的实时语义分割框架.\:该方法首先引入多通道思想,构建一种3通道语义表征模型,3通道结构分别用于提取图像的3类互补语义信息:低级语义通道输出图像中物体的边缘、颜色、结构等局部特征;辅助语义通道提取介于低级语义和高级语义的过渡信息,并实现对高级语义通道的多层反馈;高级语义通道获取图像中上下文逻辑关系及类别语义信息.\:之后,设计一种3类语义特征加权聚合模块,用于输出更完整的全局语义描述.\:最后,引入一种增强训练机制,实现训练阶段的特征增强,进而改善训练速度.\:实验结果表明,所提出方法在复杂场景中进行语义分割不仅有较快的推理速度,且有很高的分割精度,能够实现语义分割速度与精度的均衡.  相似文献   

4.
伪装物体检测通过模仿人类的视觉检测机理,实现在复杂场景下对伪装物体的定位与识别.然而,多数伪装物体检测方法在遇到相似外形目标干扰时,仅通过目标的局部表观特征无法准确识别伪装目标.为此,本文提出一种渐进聚合多尺度场景上下文特征的伪装物体检测网络,通过聚合多阶段语义增强的场景上下文特征来实现准确的伪装物体判别.具体来说,所提网络主要包含两个创新设计:U型上下文感知模块和跨级特征聚合模块.前者旨在感知复杂场景中物体的细节轮廓、纹理特征和颜色变化等丰富的局部-全局场景上下文信息.后者则结合坐标方向的注意力和多层级残差渐进特征聚合机制,逐级渐进聚合相邻层级之间的互补特征,实现对伪装物体全局语义的强化和局部细节的补充.本文方法在CHAMELEON、CAMO-Test、COD10K-Test和NC4K等4个非常具有挑战性的基准数据集上进行了评测.评测结果表明,本文方法相比于最新方法达到了领先的性能.  相似文献   

5.
由于实际的棉田环境中存在高度遮挡及尺度多变问题,大幅降低了目标计数算法的精度.针对这一问题,提出基于上下文多尺度融合的棉铃计数算法.算法由金字塔结构的上下文模块和融合卷积神经网络两个部分组成.首先通过全局上下文和局部上下文模块对棉铃图像的上下文信息编码,同时利用多列特征转换模块将输入图像映射成高维特征,最后通过融合卷积神经网络将上下文信息与高维特征进行融合,实现高精度棉铃计数并生成高质量棉铃密度图.此外,从近距离和地空观测两个角度在棉铃数据集上进行实验,实验结果表明,引入上下文信息可以有效提升棉铃计数精度,计数误差MAE和MSE分别下降了27.3和29.4.  相似文献   

6.
水下目标自动检测方法对海洋智能捕捞工作发挥着重要作用,针对现有目标检测方法存在的对水下生物检测精度不高问题,提出了一种GA-RetinaNet算法的水下目标检测方法.首先,针对水下图像存在密集目标的特点,通过引入分组卷积替换普通卷积,在不增加参数复杂度的基础上得到更多特征图,提高模型的检测精度;其次,根据水下生物多为小目标生物的特点,引入上下文特征金字塔模块(AC-FPN),利用上下文提取模块保证高分辨率输入的同时获得多个感受野,提取到更多上下文信息,并通过上下文注意力模块和内容注意力模块从中捕获有用特征,准确定位到目标位置.实验结果显示,选用URPC2021数据集进行实验,改进的GA-RetinaNet算法比原算法检测精度提高了2.3%.相比其他主流模型,该算法对不同类型的水下目标均获得了较好的检测结果,检测精度有较大提升.  相似文献   

7.
为解决目前目标检测算法在微小行人的识别与定位过程中准确率较低的问题,提高微小行人检测能力,提出一种基于自适应融合与特征细化的微小行人检测算法AF-RetinaNet.首先,将特征增强模块与ResNet相结合构建特征提取网络,采用并行结构获得增强特征;其次,使用上下文自适应学习模块,通过获得目标上下文的特征信息,从而关注相似特征的差异性,缓解误检问题;最后,构造具有图像超分思想的特征细化模块,对目标特征信息进行放大重构,优化小目标的特征表达能力,缓解漏检问题.在TinyPerson数据集上,AF-RetinaNet算法的检测精度达到56.78%,漏检率达到85.38%.与基于RetinaNet算法的研究基准相比,检测精度提高5.57%,漏检率降低3.67%.实验结果表明,该模型能有效提高对微小行人的检测和识别精度.  相似文献   

8.
基于Transformer的视觉目标跟踪算法能够很好地捕获目标的全局信息,但是,在对目标特征的表述上还有进一步提升的空间.为了更好地提升对目标特征的表达能力,提出一种基于混合注意力的Transformer视觉目标跟踪算法.首先,引入混合注意力模块捕捉目标在空间和通道维度中的特征,实现对目标特征上下文依赖关系的建模;然后,通过多个不同空洞率的平行空洞卷积对特征图进行采样,以获得图像的多尺度特征,增强局部特征表达能力;最后,在Transformer编码器中加入所构建的卷积位置编码层,为跟踪器提供精确且长度自适应的位置编码,提升跟踪定位的精度.在OTB100、VOT2018和LaSOT等数据集上进行大量实验,实验结果表明,通过基于混合注意力的Transformer网络学习特征间的关系,能够更好地表示目标特征.与其他主流目标跟踪算法相比,所提出算法具有更好的跟踪性能,且能够达到26帧/s的实时跟踪速度.  相似文献   

9.
人体姿态估计是当前的研究热点,可应用在动作识别、人机交互、医疗监护、运动分析、虚拟现实等方面。人体姿态估计主要从输入数据中获取人体的关键节点,比如肩膀、手肘、膝盖。鉴于现有深度学习算法在遮挡情况下存在识别不准确的情况,通过多尺度通道注意力机制对人体姿态估计的任务进行算法优化,核心思想是获取特征图的通道权重,聚合本地和全局特征的上下文信息。通过多个尺度自适应地融合通道维度的权重,实现对通道信息的加强,也就是选择性地增强重要特征和抑制无意义的特征。实验以SimpleBaseline为基准网络,插入多尺度通道注意力模块后,在MPII人体姿态数据集上进行训练和测试,达到88.402%的精度。实验在COCO数据集上进行训练和测试达到72.8的AP结果。  相似文献   

10.
皮肤镜图像的病灶区域与背景像素相似度高,且病灶存在形状多样,边缘模糊,人工或毛发遮挡等情况,为了获得更高精度的皮肤病变分割,提出了一种皮肤镜图像自动分割算法.首先,使用ResNet 34提取多种分辨率特征,在上下文部分使用Transformer模块对输入的特征进行全局建模;其次,通过混合池化模块聚合上下文特征的多尺度信息,在对应连接编解码器的跳跃连接间设计一个高效卷积模块以提高跳跃路径的边缘细化和抗干扰能力;最后,利用解码器恢复图像分辨率,并逐层融合其他浅层分辨率特征,利用Focal Loss函数改善难分割目标的精度.文中算法在ISIC2017,ISIC2018数据集上获得的Dice系数、准确率、Jaccard指数、灵敏度得分分别为88.83%,94.77%,81.43%,88.49%和89.46%,94.50%,82.56%,94.62%,与其他算法相比具有一定的优势,证明了该算法的有效性.  相似文献   

11.
针对现有的人体行为识别算法不能充分利用网络多层次时空信息的问题,提出了一种基于三维残差稠密网络的人体行为识别算法。首先,所提算法使用三维残差稠密块作为网络的基础模块,模块通过稠密连接的卷积层提取人体行为的层级特征;其次,经过局部特征聚合自适应方法来学习人体行为的局部稠密特征;然后,应用残差连接模块来促进特征信息流动以及减轻训练的难度;最后,通过级联多个三维残差稠密块实现网络多层局部特征提取,并使用全局特征聚合自适应方法学习所有网络层的特征用以实现人体行为识别。设计的网络算法在结构上增强了对网络多层次时空特征的提取,充分利用局部和全局特征聚合学习到更具辨识力的特征,增强了模型的表达能力。在基准数据集KTH和UCF-101上的大量实验结果表明,所提算法的识别率(top-1精度)分别达到了93.52%和57.35%,与三维卷积神经网络(C3D)算法相比分别提升了3.93和13.91个百分点。所提算法框架有较好的鲁棒性和迁移学习能力,能够有效地处理多种视频行为识别任务。  相似文献   

12.
针对雾霾环境下车辆检测准确率低、漏检严重的问题, 提出一种多尺度特征融合的雾霾环境下车辆检测算法. 首先利用条件生成对抗网络对雾霾图像进行去雾预处理, 然后针对雾霾环境下目标特征不明显的特点, 提出多尺度特征融合模块, 在YOLOv3的基础上, 从主干网络提取特征时增加一条浅层分支和深层特征进行上采样拼接融合, 得到尺度为104×104的特征图, 用于增强浅层的语义信息. 并采用CBAM注意力机制引导下的特征增强策略, 保证上下文信息的完整性, 以提高检测的精度, 最后将去雾后图片送入改进后的YOLOv3网络进行检测. 实验结果表明, 相较于原始网络, 该算法在RTTS数据集上的检测结果更加优秀, 模型可以达到81%的平均精度和67.52%的召回率, 能够更加精确的定位到车辆.  相似文献   

13.
为了提高跟踪算法在目标发生形变和被遮挡时的准确性,提出一种融合HOG(histogram of oriented gradient)特征和注意力模型的孪生目标跟踪算法.首先,采用对ResNet残差模型改进后的CIR(cropping inside residual)模型塑造孪生目标跟踪网络的骨干网络,充分利用不同层次的特征图,同时加深网络;其次,融入HOG特征,增强网络对图形几何变化的鲁棒性;再次,加入CBAM(convolutional block attention module)注意力模型,使网络能够在结合上下文信息的同时调节HOG特征在特征图中所占比例,增强特征图中的有效特征,弱化无效特征,使网络中各特征图发挥出最好的效果;最后,定义算法的损失函数.实验结果表明,所提算法在GOT-10k数据集上进行训练后,能够在OTB100上获得较好的跟踪效果,在该数据集中精确率和成功率分别达到81.9%和60.6%.在目标物体发生形变和被遮挡的情况下,所提算法仍能取得较好的跟踪效果.  相似文献   

14.
张艳  杜会娟  孙叶美  李现国 《计算机工程》2021,47(9):252-258,265
在遥感图像目标检测领域,多数目标检测算法针对小目标检测时效果不佳,为此,提出一种多尺度特征融合的遥感图像目标检测算法。利用SSD算法的基础网络进行特征提取,形成特征图金字塔。设计特征图融合模块,融合浅层特征图的位置信息和深层特征图的语义信息,从而保留丰富的上下文信息。设计冗余信息去除模块,通过卷积操作进一步提取特征图中的特征,并对特征信息进行筛选,以减少特征图融合时带来的混叠效应。在遥感图像数据集NWPU VHR-10上的实验结果表明,该算法的平均检测精度高达93.9%,其针对遥感图像小目标的检测性能优于Faster R-CNN和SSD等算法。  相似文献   

15.
目的 随着3维采集技术的飞速发展,点云在计算机视觉、自动驾驶和机器人等领域有着广泛的应用前景。深度学习作为人工智能领域的主流技术,在解决各种3维视觉问题上已表现出巨大潜力。现有基于深度学习的3维点云分类分割方法通常在聚合局部邻域特征的过程中选择邻域特征中的最大值特征,忽略了其他邻域特征中的有用信息。方法 本文提出一种结合动态图卷积和空间注意力的点云分类分割方法(dynamic graph convolution spatial attention neural networks,DGCSA)。通过将动态图卷积模块与空间注意力模块相结合,实现更精确的点云分类分割效果。使用动态图卷积对点云数据进行K近邻构图并提取其边特征。在此基础上,针对局部邻域聚合过程中容易产生信息丢失的问题,设计了一种基于点的空间注意力(spatial attention,SA)模块,通过使用注意力机制自动学习出比最大值特征更具有代表性的局部特征,从而提高模型的分类分割精度。结果 本文分别在ModelNet40、ShapeNetPart和S3DIS(Stanford Large-scale 3D Indoor Spaces Dataset)数据集上进行分类、实例分割和语义场景分割实验,验证模型的分类分割性能。实验结果表明,该方法在分类任务上整体分类精度达到93.4%;实例分割的平均交并比达到85.3%;在室内场景分割的6折交叉检验平均交并比达到59.1%,相比基准网络动态图卷积网络分别提高0.8%、0.2%和3.0%,有效改善了模型性能。结论 使用动态图卷积模块提取点云特征,在聚合局部邻域特征中引入空间注意力机制,相较于使用最大值特征池化,可以更好地聚合邻域特征,有效提高了模型在点云上的分类、实例分割与室内场景语义分割的精度。  相似文献   

16.
目的 在高分辨率遥感影像语义分割任务中,仅利用可见光图像很难区分光谱特征相似的区域(如草坪和树、道路和建筑物),高程信息的引入可以显著改善分类结果。然而,可见光图像与高程数据的特征分布差异较大,简单的级联或相加的融合方式不能有效处理两种模态融合时的噪声,使得融合效果不佳。因此如何有效地融合多模态特征成为遥感语义分割的关键问题。针对这一问题,本文提出了一个多源特征自适应融合模型。方法 通过像素的目标类别以及上下文信息动态融合模态特征,减弱融合噪声影响,有效利用多模态数据的互补信息。该模型主要包含3个部分:双编码器负责提取光谱和高程模态的特征;模态自适应融合模块协同处理多模态特征,依据像素的目标类别以及上下文信息动态地利用高程信息强化光谱特征,使得网络可以针对特定的对象类别或者特定的空间位置来选择特定模态网络的特征信息;全局上下文聚合模块,从空间和通道角度进行全局上下文建模以获得更丰富的特征表示。结果 对实验结果进行定性、定量相结合的评价。定性结果中,本文算法获取的分割结果更加精细化。定量结果中,在ISPRS (International Society for Photogrammetry and Remote Sensing) Vaihingen和GID (Gaofen Image Dataset)数据集上对本文模型进行评估,分别达到了90.77%、82.1%的总体精度。与DeepLab V3+、PSPNet (pyramid scene parsing network)等算法相比,本文算法明显更优。结论 实验结果表明,本文提出的多源特征自适应融合网络可以有效地进行模态特征融合,更加高效地建模全局上下文关系,可以广泛应用于遥感领域。  相似文献   

17.
诸如夜间等低光场景下的行为识别对于安防、自动驾驶等领域具有重要意义,针对现有方法在低光环境下识别效果不佳、鲁棒性较差等问题,提出一种基于特征引导的多模态聚合低光环境行为识别方法(MALNFG). 首先,设计分层骨架特征融合网络(HSFIE),利用光照增强算法提升低光场景的骨架提取能力,采用层次化时空特征融合策略获取侧重于人体行为本身表达的动作特征,改善低光场景下因骨架缺失造成的精度下降问题;其次,设计高效表观特征提取模块(EAFEM),采用零参数时间位移模块在2D特征提取网络上高效捕捉包含丰富场景信息的时空特征;接着,设计特征引导多模态聚合网络(MNF),利用特征引导策略执行骨架特征与RGB表观特征的深层信息交互,实现行为特征的全面性表征;最后,采用全连接层进行特征分类,完成行为识别.实验结果表明,所提出方法可以较好地适用于低光环境下的人体行为识别任务.  相似文献   

18.
为了提高二维复杂场景下多人姿态估计准确度和速度,提出了一种Mobile-YOLOv3模型与多尺度特征融合全卷积网络相结合的自顶向下多人姿态估计方法.利用深度可分离卷积改进YOLOv3网络以作为高效的人体目标检测器.针对网络特征下采样过程中上层高分辨率信息不断遗失问题,在经典U型网络结构中嵌入多尺度特征融合模块,从而使网络中的低尺度特征也包含高分辨率信息,并在特征融合模块中引入通道注意力机制,进一步突出多尺度融合特征图的关键通道信息.试验结果表明:相比于堆叠沙漏网络(Stacked Hourglass Network,SHN)和级联金字塔网络(Cascaded Pyramid Network,CPN),文中所提出的人体姿态估计算法在COCO数据集上的姿态估计平均准确率分别提高了4.7和3.7.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号