首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
为解决目前基于卷积网络的关键点检测模型无法建模远距离关键点之间关系的问题,提出一种Transformer与CNN(卷积网络)多分支并行的人像关键点检测网络,称为MCTN(multi-branch convolution-Transformer network),其利用Transformer的动态注意力机制建模关键点之间的远距离联系,多分支并行的结构设计使得MCTN包含共享权重、全局信息融合等特点。此外,提出一种新型的Transformer结构,称为Deformer,它可以将注意力权重更快地集中在稀疏且有意义的位置,解决Transformer收敛缓慢的问题;在WFLW、300W、COFW数据集的人像关键点检测实验中,归一化平均误差分别达到4.33%、3.12%、3.15%,实验结果表明,MCTN利用Transformer与CNN多分支并联结构和Deformer结构,性能大幅超越基于卷积网络的关键点检测算法。  相似文献   

2.
基于深度学习的人体姿态估计广泛应用于姿态识别、人机交互等领域. 为了提升人体关键点的检测精度, 很多网络采用运算量、参数量和复杂度不断增加的模型架构, 导致无法直接部署到低算力设备. 为了解决上述问题, 本文提出了一种多路特征注意力融合的轻量型方法. 模型基于HigherHRNet网络进行轻量化设计和训练, 包括: 采用通道拆分和通道混洗, 解决分组卷积后特征层之间存在的信息隔离; 采用线性运算的特征生成方法, 解决不同特征层之间存在的冗余性; 采用融合注意力信息的方法, 缓解因轻量化导致的准确率下降. 在MS COCO数据集上完成了模型的训练、测试、可视化以及消融实验. 实验结果表明本文的轻量化方法在保证直观的检测精度前提下, 能够显著降低人体姿态估计的计算量.  相似文献   

3.
马康哲  皮家甜  熊周兵  吕佳 《计算机应用》2022,42(12):3715-3722
在机械臂视觉抓取过程中,现有的算法在复杂背景、光照不足、遮挡等条件下,难以对目标物体进行实时、准确、鲁棒的姿态估计。针对以上问题,提出一种基于关键点方法的融合注意力特征的物体6D姿态网络。首先,在跳跃连接(Skip Connection)阶段引入能够聚焦通道空间信息的卷积注意力模块(CBAM),使编码阶段的浅层特征与解码阶段的深层特征进行有效融合,增强特征图的空间域信息和精确位置通道信息;其次,采用归一化损失函数以弱监督的方式回归每个关键点的注意力图,将注意力图作为对应像素位置上关键点偏移量的权重分数;最后,累加求和得到关键点坐标。实验结果证明,所提网络在LINEMOD数据集和Occlusion LINEMOD数据集上ADD(-S)指标分别达到了91.3%和46.3%。与基于关键点的逐像素投票网络(PVNet)相比ADD(-S)指标分别提升了5.0个百分点和5.5个百分点,验证了所提网络在遮挡场景下有更好的鲁棒性。  相似文献   

4.
为解决多人姿态估计中小尺度关键点(手腕、脚踝等)定位准确率低的问题,采用自顶向上的方式,结合先进的人体目标检测模型YOLOv3,提出一种基于堆叠沙漏网络改进的多人姿态估计方法。在沙漏网络中融入通道混洗模块,加强不同尺度下多层特征之间的跨通道信息交流,提高被遮挡关键点的识别效果;使用注意力机制对沙漏网络原有的残差模块进行特征增强,抑制无用特征并提升有用特征,提高小尺度关键点的识别率。实验结果表明,在MPII数据集上的总体PCK@0.5达到了88.6%,在MSCOCO数据集上的AP@0.75相比原始网络提升了4.6%,验证了所提方法的有效性。  相似文献   

5.
石跃祥  许湘麒 《控制与决策》2021,36(5):1206-1212
针对图像中由于人数不确定对处理速度的影响,以及不同人体或人体自身部位的相对大小不同等尺度因素影响导致通用的关键点检测方法的检测效果不佳等问题,提出一种改进的稠密卷积网络(DenseNet)结构用于人体姿态估计.该网络结构为单阶段的端对端的网络结构,利用深度卷积神经网络进行特征提取,在卷积网络末端通过特定的尺度转换结构得到6种不同尺度的特征图,使得网络能同时使用不同层次的特征进行多尺度关键点检测,可以有效提高检测精度.所提出方法采用自底向上的方式,使得网络进行多人姿态估计任务的处理速度得到保证.实验表明,所提出方法相比几种主流方法在多人关键点检测的平均精度上提升了1个百分点,为平衡姿态估计的速度与精度提供了一种新方法.  相似文献   

6.
基于多尺度注意力机制的高分辨率网络人体姿态估计   总被引:1,自引:0,他引:1  
针对人体姿态估计中面对特征图尺度变化的挑战时难以预测人体的正确姿势,提出了一种基于多尺度注意力机制的高分辨率网络MSANet(multiscale-attention net)以提高人体姿态估计的检测精度。引入轻量级的金字塔卷积和注意力特征融合以更高效地完成多尺度信息的提取;在并行子网的融合中引用自转换器模块进行特征增强,获取全局特征;在输出阶段中将各层的特征使用自适应空间特征融合策略进行融合后作为最后的输出,更充分地获取高层特征的语义信息和底层特征的细粒度特征,以推断不可见点和被遮挡的关键点。在公开数据集 COCO2017上进行测试,实验结果表明,该方法比基础网络HRNet的估计精度提升了4.2%。  相似文献   

7.
近年来, RGB-D显著性检测方法凭借深度图中丰富的几何结构和空间位置信息, 取得了比RGB显著性检测模型更好的性能, 受到学术界的高度关注. 然而, 现有的RGB-D检测模型仍面临着持续提升检测性能的需求. 最近兴起的Transformer擅长建模全局信息, 而卷积神经网络(CNN)擅长提取局部细节. 因此, 如何有效结合CNN和Transformer两者的优势, 挖掘全局和局部信息, 将有助于提升显著性目标检测的精度. 为此, 提出一种基于跨模态交互融合与全局感知的RGB-D显著性目标检测方法, 通过将Transformer网络嵌入U-Net中, 从而将全局注意力机制与局部卷积结合在一起, 能够更好地对特征进行提取. 首先借助U-Net编码-解码结构, 高效地提取多层次互补特征并逐级解码生成显著特征图. 然后, 使用Transformer模块学习高级特征间的全局依赖关系增强特征表示, 并针对输入采用渐进上采样融合策略以减少噪声信息的引入. 其次, 为了减轻低质量深度图带来的负面影响, 设计一个跨模态交互融合模块以实现跨模态特征融合. 最后, 5个基准数据集上的实验结果表明, 所提算法与其他最新的算法相比具有显著优势.  相似文献   

8.
针对域名生成算法生成的恶意域名隐蔽性高,现有方法在恶意域名检测上准确率不高的问题,提出一种基于Transformer和多特征融合的DGA域名检测方法。该方法使用Transformer编码器捕获域名字符的全局信息,通过并行深度卷积神经网络获取不同粒度的长距离上下文特征,同时引入双向长短期记忆网络BiLSTM和自注意力机制Self-Attention结合浅层CNN得到浅层时空特征,融合长距离上下文特征和浅层时空特征进行DGA域名检测。实验结果表明,所提方法在恶意域名检测方法上有更好的性能。相对于CNN、LSTM、L-PCAL和SW-DRN,所提方法在二分类实验中准确率分别提升了1.72%,1.10%,0.75%和0.34%;在多分类实验中准确率分别提升了1.75%,1.29%,0.88%和0.83%。  相似文献   

9.
手部姿态估计在人机交互、手功能评估、虚拟现实和增强现实等应用中发挥着重要作用, 为此本文提出了一种新的手部姿态估计方法, 以解决手部区域在大多数图像中占比较小和已有单视图关键点检测算法无法应对遮挡情况的问题. 所提方法首先通过引入Bayesian卷积网络的语义分割模型提取手部目标区域, 在此基础上针对手部定位结果, 利用所提基于注意力机制和级联引导策略的新模型以获得较为准确的手部二维关键点检测结果.然后提出了一种利用立体视觉算法计算关键点深度信息的深度网络, 并在深度估计中提供视角自学习的功能. 该方式以三角测量为基础, 利用RANSAC算法对测量结果进行校准. 最后经过多任务学习和重投影训练对手部关键点的3D检测结果进行优化, 最终提取手部关键点的三维姿态信息. 实验结果表明: 相比于已有的一些代表性人手区域检测算法, 本文方法在人手区域检测上的平均检测精度和运算时间上有一定的改善. 此外, 从本文所提姿态估计方法与已有其他方法的平均端点误差(EPE_mean)和PCK曲线下方面积(AUC)这些指标的对比结果来看, 本文方法的关键点检测性能更优, 因而能获得更好的手部姿态估计结果.  相似文献   

10.
传统的图像关键点检测算法大都基于人工设计,不能适应场景变换,泛化性能较差.对此提出一种基于特征金字塔网络的图像关键点检测算法,通过融合网络中多尺度特征使得检测出的关键点具备尺度不变性,能够提取可重复的、鲁棒的关键点.为了提高算法的性能,并提出一种有效的方法产生训练数据集,训练数据集包括室内和室外的各种复杂场景.在多个公开数据集上对该算法进行测试,并与其他关键点检测算法进行对比,实验结果表明,该算法所提取的关键点在可重复率上有良好的表现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号