首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
在人体姿态估计任务中,针对高分辨率网络提取和融合特征图的特征信息时不能有效获取多通道信息和空间特征信息,导致人体姿态估计结果不够精确。在高分辨率网络(HRNet)的基础上,提出一种融入双注意力的高分辨率人体姿态估计网络ENNet。通过引入通道注意力,构造E-ecaneck模块和E-ecablock模块作为基础模块,最大程度地对多通道提取足够多的有用信息,在每一阶段子网的多分辨率融合阶段融入空间注意力机制,提取并融合不同分辨率特征信息,通过上采样的方式输出所有融合低分辨率的高分辨率表征。在公开数据集MS COCO2017上进行验证和测试,结果表明,相比于高分辨率网络,该方法mAP提高3.4%,有效改善网络多分辨率表征的信息融合能力,明显提升基础高分辨率网络HRNet的估计精确度。  相似文献   

2.
人体解析作为一种复杂而精细的计算机视觉任务,应用前景十分广泛,为了得到精确的人体解析结果需要提取丰富人体语义特征,对此提出一种双路人体解析网络(MTCnet)。MTCnet将编码解码网络与空洞卷积相结合,拥有两个特征提取子网能够融合学习多尺度特征信息,相比单一网络,能够学习更丰富人体语义特征信息。与以往单一阶段处理方式不同,提出的方法需要进行多阶段学习,每个阶段对前一阶段的人体解析结果进行改进,达到最优的解析结果。实验结果表明,提出的方法与目前一些先进的方法相比特征提取能力更强,解析结果更加精准。  相似文献   

3.
孙超文  陈晓 《自动化学报》2021,47(7):1689-1700
针对现有图像超分辨率重建方法恢复图像高频细节能力较弱、特征利用率不足的问题, 提出了一种多尺度特征融合反投影网络用于图像超分辨率重建. 该网络首先在浅层特征提取层使用多尺度的卷积核提取不同维度的特征信息, 增强跨通道信息融合能力; 然后,构建多尺度反投影模块通过递归学习执行特征映射, 提升网络的早期重建能力; 最后,将局部残差反馈结合全局残差学习促进特征的传播和利用, 从而融合不同深度的特征信息进行图像重建. 对图像进行×2 ~ ×8超分辨率的实验结果表明, 本方法的重建图像质量在主观感受和客观评价指标上均优于现有图像超分辨率重建方法, 超分辨率倍数大时重建性能相比更优秀.  相似文献   

4.
针对传统消费级深度相机采集的场景深度图通常存在分辨率低、深度图模糊等缺陷,利用场景高分辨率彩色图引导,提出一种基于通道多尺度融合的场景深度图超分辨率网络——CMSFN.为了有效地利用场景深度图的多尺度信息,CMSFN采用金字塔多尺度结构,在金字塔各层级上,通过对低分辨率深度图进行通道多尺度上采样,并结合残差学习提升深度图分辨率.首先,在超分辨率网络金字塔结构每一层级上对深度特征图与同尺度彩色特征图通过密集连接进行融合,使场景彩色-深度图特征得到复用并能够充分融合场景结构信息;其次,对融合后的深度特征图进行通道多尺度划分,使网络能获得不同大小的感受野,并在不同尺度上有效捕捉特征信息;最后,在CMSFN中加入全局与局部残差结构,使网络在恢复场景深度图高频残差信息的同时缓解梯度消失.对于Middlebury数据集A组, CMSFN方法超分辨率均方根误差平均为1.33,与MFR和PMBANet方法相比,分别降低了6.99%和26.92%;对于Middlebury数据集B组, CMSFN方法超分辨率均方根误差平均为1.41,与MFR和PMBANet方法相比,分别降低了9.03%和17.05%.实...  相似文献   

5.
针对当前人脸超分辨率算法中存在效率不高和重建失真等问题,提出一种基于多尺度残差通道注意机制的人脸超分辨率网络.该网络采用多尺度递进形式的结构,能够同时处理不同的上采样因子.同时,为了解决冗余和无效信息给网络造成的影响,在网络的特征重建模块中引入了通道注意力机制,并融合人脸解析信息提出一种残差通道注意块,不仅提高了网络特征利用率还加强了人脸先验的约束力度.与现有算法在Helen, CelebA和LFW数据集上进行的实验结果表明,该算法无论是主观视觉质量,还是峰值信噪比和结构相似性等客观评价指标,都明显优于现有其他算法.  相似文献   

6.
为了提高二维复杂场景下多人姿态估计准确度和速度,提出了一种Mobile-YOLOv3模型与多尺度特征融合全卷积网络相结合的自顶向下多人姿态估计方法.利用深度可分离卷积改进YOLOv3网络以作为高效的人体目标检测器.针对网络特征下采样过程中上层高分辨率信息不断遗失问题,在经典U型网络结构中嵌入多尺度特征融合模块,从而使网络中的低尺度特征也包含高分辨率信息,并在特征融合模块中引入通道注意力机制,进一步突出多尺度融合特征图的关键通道信息.试验结果表明:相比于堆叠沙漏网络(Stacked Hourglass Network,SHN)和级联金字塔网络(Cascaded Pyramid Network,CPN),文中所提出的人体姿态估计算法在COCO数据集上的姿态估计平均准确率分别提高了4.7和3.7.  相似文献   

7.
基于多分辨率分析的ECG基线漂移矫正算法   总被引:1,自引:0,他引:1  
基线漂移对ECG采样信号的ST段特征信息准确提取带来很大困难.利用小波变换的良好分辨率分析特性,提出基于多分辨率分析的ECG基线漂移矫正算法.根据ECG多尺度分解后的高尺度细节信息特点,采用二次样条小波对采样ECG信号进行多尺度分解,然后选择高尺度下的细节信息进行自适应滤波,最后进行多尺度重构,实现消噪目的.多次实验结果表明,该算法能有效矫正ECG的基线漂移,且保持信号低频部分特征信息,这为准确提取EcG信号的ST段特征信息奠定了基础.  相似文献   

8.
人体关键点检测在智能视频监控、人机交互等领域具有重要应用。多数基于深度学习的人体关键点检测算法仅聚焦于增加多尺度特征或加深网络模型深度,忽略了在获取低分辨率特征图过程中因重复下采样操作而造成的信息丢失。针对该问题,提出一种高分辨率的人体关键点检测网络CASANet,以实现二维图像人体姿态估计。使用HRNet作为骨干网络,引入坐标注意力模块在1/16分辨率特征图分支上捕获位置信息和通道信息,利用自注意力模块在1/32分辨率特征图分支上捕获位置信息和通道信息的内部相关性,通过这2个模块克服网络在获取低分辨率特征图过程中的信息丢失问题。在MS COCOVAL 2017数据集上进行实验,结果表明, CASANet网络可以在参数量和计算量有少量提升的情况下获得更高的检测准确度,有效提升通道信息和位置信息的提取效果,相较基线方法,CASANet的AP值提高2.4个百分点。  相似文献   

9.
为了解决当前跨模态行人重识别算法因采用权值共享的卷积核而造成模型针对不同输入动态调整能力差,以及现有方法因仅使用高层粗分辨率的语义特征而造成信息丢失的问题,提出一种双向动态交互网络的跨模态行人重识别方法.首先通过双流网络分别提取不同模态各个残差块后的全局特征;然后根据不同模态的全局内容动态地生成定制化卷积核,提取模态特有信息,并将其作为模态互补信息在模态间进行双向传递以缓解模态异质性;最后对各层不同分辨率的特征进行相关性建模,联合学习跨层的多分辨率特征以获取更具有判别性和鲁棒性的特征表示.在SYSU-MM01和RegDB跨模态行人重识别数据集上的实验结果表明,所提方法在第一命中率(R1)分别高于当前最好方法4.70%和2.12%;在平均检索精度(mAP)上分别高于当前最好方法4.30%和2.67%,验证了该方法的有效性.  相似文献   

10.
人体解析旨在将人体图像分割成多个具有细粒度语义的部件区域,进行形成对人体图像的语义理解.然而由于人体姿态的复杂性,现有的人体解析算法容易对人体四肢部件形成误判,且对于小目标区域的分割不够精确.针对上述问题,本文联合人体姿态估计信息,提出了一种人体精确解析的双分支网络模型.该模型首先使用基干网络表征人体图像,将人体姿态估计模型预测到的姿态先验作为基干网络的注意力信息,进而形成人体结构先验驱动的多尺度特征表达,并将提取的特征分别输入至全卷积网络解析分支与检测解析分支.全卷积网络解析分支获得全局分割结果,检测解析分支更关注小尺度目标的检测与分割,融合两个分支的预测信息可获得更为精确的分割结果.实验结果验证了本文算法的有效性,在当前主流的人体解析数据集LIP和ATR上,本文方法的mIoU评测指标分别为52.19%和68.29%,有效提升了解析精度,在人体四肢部件以及小目标部件区域获得了更为准确的分割结果.  相似文献   

11.
王凤随      陈金刚      王启胜      刘芙蓉     《智能系统学报》2022,17(2):276-285
识别多尺度目标是检测任务中的一项挑战,针对检测中的多尺度问题,提出自适应上下文特征的多尺度目标检测算法。针对不同尺度的目标需要不同大小感受野特征进行识别的问题,构建了一种多感受野特征提取网络,通过多分支并行空洞卷积,从高层语义特征中挖掘标签中的上下文信息;针对不同尺度目标的语义特征出现在不同分辨率特征图中的问题,基于改进的通道注意力机制,提出自适应的特征融合网络,通过学习不同分辨率特征图之间的相关性,在全局语义特征中融合局部位置特征;利用不同尺度的特征图识别不同尺度的物体。在PASCAL VOC数据集上对本文算法进行验证,本文方法的检测精度达到了85.74%,相较于Faster R-CNN检测精度提升约8.7%,相较于基线检测算法YOLOv3+提升约2.06%。  相似文献   

12.
Gao  Bingkun  Ma  Ke  Bi  Hongbo  Wang  Ling  Wu  Chenlei 《Multimedia Tools and Applications》2021,80(19):29251-29265

The human pose estimation in images and videos is a challenging task in many applications. Most of the network structures used to estimate the pose only use the convolution feature of the last layer, which will cause the loss of information. In this paper, we propose a multi-scales fusion framework based on the hourglass network for the human pose estimation, which can effectively obtain sufficient information of different resolutions. In the process of extracting different resolution features, the network constantly complements the high resolution features. Additionally, we design the depth pyramid residual module to fuse different various scales features. The whole network is stacked by sub-networks. For applying in limited storage space better, we only use 2-stage stacked network. We test the network on standard benchmarks MPII dataset, our method achieves 88.9% PCKh score and improves the PCK score by 0.7%, compared with the original network. Our approach gains state-of-the-art results.

  相似文献   

13.
基于深度学习的人群密度检测算法取得了巨大进步,但该算法在实际复杂场景中的检测准确性和鲁棒性还有很大的提升空间.复杂场景下目标尺度不一致和背景信息干扰等因素使得人群密度检测成为一项具有挑战性的任务.针对该问题,提出了一种基于多尺度特征融合的人群密度检测网络.该网络首先利用不同分辨率图像并行交互提取人群粗细粒度特征,并引入多层次特征融合机制,以充分利用多层尺度信息.其次采用空间和通道注意力机制突出人群特征权重,聚焦感兴趣的人群,降低背景信息干扰,生成高质量密度图.实验结果表明,在多个典型的公共数据集上与具有代表性的人群密度检测方法相比,多尺度特征融合的人群密度检测网络具有良好的准确性和鲁棒性.  相似文献   

14.
张相芬  刘艳  袁非牛 《计算机工程》2022,48(12):304-311
基于深度学习的医学图像分割对医学研究和临床疾病诊断具有重要意义。然而,现有三维脑图像分割网络仅依赖单一模态信息,且最后一层网络的特征表达不准确,导致分割精度降低。引入注意力机制,提出一种基于深度学习的多模态交叉重构的倒金字塔网络MCRAIP-Net。以多模态磁共振图像作为输入,通过三个独立的编码器结构提取各模态的特征信息,并将提取的特征信息在同一分辨率级进行初步融合。利用双通道交叉重构注意力模块实现多模态特征的细化与融合。在此基础上,采用倒金字塔解码器对解码器各阶段不同分辨率的特征进行整合,完成脑组织的分割任务。在MRBrainS13和IBSR18数据集上的实验结果表明,相比3D U-Net、MMAN、SW-3D-Unet等网络,MCRAIP-Net能够充分利用多模态图像的互补信息,获取更准确丰富的细节特征且具有较优的分割精度,白质、灰质、脑脊液的Dice系数分别达到91.67%、88.95%、84.79%。  相似文献   

15.
针对环境声音分类(ESC),提出了一种基于多分辨率特征和时频注意力的卷积神经网络环境声音分类方法.首先,相较单一分辨率的谱图,多通道多分辨率特征可以丰富特征信息,实现不同特征分辨率之间信息互补,增强特征的表达能力;其次,针对声信号提出了一种时频注意力模块,该模块先利用不同大小的一维卷积分别关注时域和频域有效信息,再用二维卷积将两者进行融合,从而抑制环境声中背景噪声并消除由多通道多分辨率带来的冗余信息干扰.实验结果表明,在ESC-10和ESC-50两个基准数据集上的分类准确率达到了98.50%和88.46%,与现有的最新方法相比分别提高了2.70%和0.76%.  相似文献   

16.
如今信息量呈爆炸式增长,自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖昂贵的人工标注特征和语言分析工具的语法信息,导致预处理中语法信息的错误传递到系统训练和预测过程中。因此,深度学习的应用受到了学者们的关注。因为它能实现端对端预测并尽可能少地 依赖 外部信息。自然语言处理领域流行的深度学习框架为了更好地获取句子信息,采用multi-gram策略。但不同任务和不同数据集的信息分布状况不尽相同,而且这种策略并没有考虑到不同n-gram的重要性分布。针对该问题,提出了一种基于深度学习的自适应学习multi-gram权重的策略,从而根据各n-gram特征的贡献为其分配相应的权重;并且还提出了一种新的multi-gram特征向量结合方法,大大降低了系统复杂度。将该模型应用到电影评论正负倾向判断和关系分类两种分类任务中,实验结果证明采用的自适应multi-gram权重策略能够大大改善模型的分类效果。  相似文献   

17.
针对RGB图像的实例分割任务在图像目标物体纹理相近但类别不同的区域可能出现分割错误的问题,引入Depth信息,结合RGB-D图像的三维几何结构特点,提出一种以双金字塔特征融合网络为框架的RGB-D实例分割方法.所提出的方法通过构建两种不同复杂度的金字塔深度卷积神经网络分别提取不同梯度分辨率大小的RGB特征及Depth特征,将对应分辨率大小的两种特征相加输入区域候选网络,以此改变输入区域候选网络层的共享特征,共享特征再经过分类、回归与掩码网络分支输出定位与分类结果,从而实现RGB-D图像的实例分割.实验结果表明,所提出的双金字塔特征融合网络模型能够完成RGB-D图像的实例分割任务,有效学习到深度图像与彩色图像之间的互补信息,与不包含Depth信息的Mask R-CNN相比,平均精度提高7.4%.  相似文献   

18.
针对传统显著性目标检测方法在检测不同尺度的多个显著性目标方面的不足,提出了一种多尺度特征深度复用的显著性目标检测算法,网络模型由垂直堆叠的双向密集特征聚合模块和水平堆叠的多分辨率语义互补模块组成。首先,双向密集特征聚合模块基于ResNet骨干网络提取不同分辨率语义特征;然后,依次在top-down和bottom-up两条通路上进行自适应融合,以获取不同层次多尺度表征特征;最后,通过多分辨率语义互补模块对两个相邻层次的多尺度特征进行融合,以消除不同层次上特征之间的相互串扰来增强预测结果的一致性。在五个基准数据集上进行的实验结果表明,该方法在Fmax、Sm、MAE最高能达到0.939、0.921、0.028,且检测速率可达74.6 fps,与其他对比算法相比有着更好的检测性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号