首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 304 毫秒
1.
人体行为识别与人体姿态有很强的相关性,由于许多公开的行为识别的数据集并未提供相关姿态数据,因此很少有将姿态数据进行训练并与其它模态进行融合的识别方法.针对当今主流基于深度学习的人体行为识别方法采用RGB与光流融合的现状,提出一种融合人体姿态特征的多流卷积神经网络人体行为识别算法.首先,用姿态估计算法从包含人的静态图片生成人体关键点数据,并对关键点连接构建姿态;其次,分别将RGB、光流、姿态数据对多流卷积神经网络进行训练,并进行分数融合;最后,在UCF101与HMDB51数据集进行了大量的消融,识别精度等方面的实验研究.实验结果表明,融合了姿态图像的多流卷积神经网络在UCF101与HMDB51数据集的实验精度分别提高了2.3%和3.1%.实验结果验证了提出算法的有效性.  相似文献   

2.
针对在相对密集场景下检测不佳的普遍现象,提出了基于人体姿态信息输入的模块化神经网络,通过构建绝对姿态特征和相对空间姿态特征来促进人与物体交互关系的检测.该算法主要包含两个分支:a)通过全连接层网络来独立处理每个人体关节点相对于物体的空间姿态特征;b)通过全连接图神经网络来更新每个关节点的绝对姿态特征.最后通过一个行为分类网络基于融合后的特征来进行交互关系的推断.该模块网络结合先进的检测模型VS-GATs在数据集V-COCO和HICO-DET上取得了显著的提升效果:在V-COCO上,比VS-GATs的检测结果提升2 mAP(约4%);在更有挑战性的HICO-DET上,比VS-GATs的检测结果提升0.98 mAP(约4.6%).实验表明了所构建特征的有效性以及设计的网络的优越性.  相似文献   

3.
大多数现有的基于深度学习的手势姿态估计方法都使用标准三维卷积神经网络提取三维特征,估计手部关节坐标。该方法提取的特征缺乏手部的多尺度信息,限制了手势姿态估计的精度。另外,由于三维卷积神经网络巨大的计算成本和内存需求,这些方法常难以满足实时性要求。为了克服这些缺点,提出以空间滤波器和深度滤波器级联的方式模拟三维卷积,减少网络参数量。同时,在各个尺度上提取手势姿态特征并加以整合,充分利用手势的三维信息。实验表明,该方法能有效提高手势姿态估计精度,减小模型尺寸,且在具有单块GPU的计算机上能以超过119 fps的速度运行。  相似文献   

4.
人体解析旨在将人体图像分割成多个具有细粒度语义的部件区域,进行形成对人体图像的语义理解.然而由于人体姿态的复杂性,现有的人体解析算法容易对人体四肢部件形成误判,且对于小目标区域的分割不够精确.针对上述问题,本文联合人体姿态估计信息,提出了一种人体精确解析的双分支网络模型.该模型首先使用基干网络表征人体图像,将人体姿态估计模型预测到的姿态先验作为基干网络的注意力信息,进而形成人体结构先验驱动的多尺度特征表达,并将提取的特征分别输入至全卷积网络解析分支与检测解析分支.全卷积网络解析分支获得全局分割结果,检测解析分支更关注小尺度目标的检测与分割,融合两个分支的预测信息可获得更为精确的分割结果.实验结果验证了本文算法的有效性,在当前主流的人体解析数据集LIP和ATR上,本文方法的mIoU评测指标分别为52.19%和68.29%,有效提升了解析精度,在人体四肢部件以及小目标部件区域获得了更为准确的分割结果.  相似文献   

5.
夏晶  钱堃  马旭东  刘环 《机器人》2018,40(6):794-802
针对任意姿态的未知不规则物体,提出一种基于级联卷积神经网络的机器人平面抓取位姿快速检测方法.建立了一种位置-姿态由粗到细的级联式两阶段卷积神经网络模型,利用迁移学习机制在小规模数据集上训练模型,以R-FCN(基于区域的全卷积网络)模型为基础提取抓取位置候选框进行筛选及角度粗估计,并针对以往方法在姿态检测上的精度不足,提出一种Angle-Net模型来精细估计抓取角度.在Cornell数据集上的测试及机器人在线抓取实验结果表明,该方法能够对任意姿态、不同形状的不规则物体快速计算最优抓取点及姿态,其识别准确性和快速性相比以往方法有所提高,鲁棒性和稳定性强,且能够泛化适应未训练过的新物体.  相似文献   

6.
邱哲瀚  李扬 《计算机应用》2021,41(12):3680-3685
为了提高立体匹配算法处理前景视差估计任务的计算效率,针对一般网络采用完全双目图像作为输入,场景内前景空间占比小而导致输入信息冗余度大的缺点,提出了一种基于稀疏卷积的目标实时立体匹配算法。为实现和改善算法对稀疏前景的视差估计,首先利用分割算法同时获得稀疏前景掩膜和场景语义特征;其次通过稀疏卷积提取稀疏前景区域的空间特征后与场景语义特征相融合,并将融合特征输入到解码模块进行视差回归;最后以前景真值图作为损失生成视差图。在ApolloScape数据集上的测试结果表明,所提算法的准确性和实时性均优于先进算法PSMNet和GANet,且算法的单次运行时间低至60.5 ms,对目标遮挡具有一定的鲁棒性,可用于目标实时深度估计。  相似文献   

7.
从单幅彩色图像获取三维人体姿态是许多应用的基本任务,但精度不足和不适定姿态难以判断的问题一直存在,因此提出一个基于深度学习的方法处理三维姿态估计的问题.首先,使用空间体素作为数据存储结构,提出联合坐标的表达方式;其次,利用空间积分回归的方法来计算卷积网络的输出结果;最后将输出送入全连接网络进行联合训练.所提方法在human3.6m数据集的2种标准测试协议下进行了测试,取得了比以往大部分方法更高的精确度,面对MPI-INF-3DHP等数据集时也展现出良好的泛化能力.  相似文献   

8.
基于多尺度注意力机制的高分辨率网络人体姿态估计   总被引:1,自引:0,他引:1  
针对人体姿态估计中面对特征图尺度变化的挑战时难以预测人体的正确姿势,提出了一种基于多尺度注意力机制的高分辨率网络MSANet(multiscale-attention net)以提高人体姿态估计的检测精度。引入轻量级的金字塔卷积和注意力特征融合以更高效地完成多尺度信息的提取;在并行子网的融合中引用自转换器模块进行特征增强,获取全局特征;在输出阶段中将各层的特征使用自适应空间特征融合策略进行融合后作为最后的输出,更充分地获取高层特征的语义信息和底层特征的细粒度特征,以推断不可见点和被遮挡的关键点。在公开数据集 COCO2017上进行测试,实验结果表明,该方法比基础网络HRNet的估计精度提升了4.2%。  相似文献   

9.
目前,深度全卷积网络在图像语义分割领域已经取得了瞩目的成就,但特征图的细节信息在多次下采样过程中会大量损失,对分割精度造成影响。针对该问题设计了一个用于图像语义分割的深度全卷积网络。该网络采用“编码器-解码器”结构,在编码器后端引入空洞卷积以降低细节信息的损失,在解码过程中融合对应尺寸的低阶语义特征,并在解码器末端融入全局特征以提升模型的分割精度。使用数据增强后的CamVid数据集对网络进行训练和测试,测试结果达到了90.14%的平均像素精度与71.94%的平均交并比。实验结果表明,该网络能充分利用低阶特征与全局特征,有效提升分割性能,并在区域平滑方面有很好的表现。  相似文献   

10.
针对基于卷积神经网络的立体匹配算法普遍存在参数量巨大、精度不足等问题,提出一种基于卷积神经网络的高效精准立体匹配算法.首先设计了一个融合多尺寸上下文信息的特征提取网络,提高不适定区域(Ill-posed regions)的匹配精度;其次,改进现有的相似度计算步骤,在保证匹配精度的同时,大量减少了网络的参数量;最后,提出一种轻量级的基于注意力机制的视差精修算法,从通道与空间维度上关注并修改初始视差图错误的像素点.与GC-Net在标准数据集Sceneflow上的对比实验表明,该算法在参数量减少14%的同时,匹配精度提高超过了50%.  相似文献   

11.
对于在深度神经网络的中间层分支进行深度融合,产生潜在可以共享有用信息的基础网络,从而优化信息流动,提升深度神经网络的性能,是近期的深度神经网络研究的挑战。对此提出一种基于注意力卷积模块的深度神经网络的图像识别方法。改进的模块主要分为树干分支与软分支两部分,在树干分支上,由两组残差模块组成,使该模块适用于其他深度神经网络;在软分支上,将给定的中间特征图沿着两个维度(空间与通道)获取注意力特征图,对输入中间特征图进行调整,强化有用信息抑制无用信息。改进的卷积残差模块既能解决输入与输出的尺寸不一致的问题,也能强化图像的关键信息与有效促进网络的信息流动。通过对cifar-10、cifar-100、ck+、AVEC2017数据集进行实验,实验结果表明了提出的方法应用于ResNet-50网络上对比Hu提出的方法在训练耗时相差不到0.3%的情况下,识别图像准确率有0.9%~1.2%的提高。  相似文献   

12.
目的 将半监督对抗学习应用于图像语义分割,可以有效减少训练过程中人工生成标记的数量。作为生成器的分割网络的卷积算子只具有局部感受域,因此对于图像不同区域之间的远程依赖关系只能通过多个卷积层或增加卷积核的大小进行建模,但这种做法也同时失去了使用局部卷积结构获得的计算效率。此外,生成对抗网络(generative adversarial network, GAN)中的另一个挑战是判别器的性能控制。在高维空间中,由判别器进行的密度比估计通常是不准确且不稳定的。为此,本文提出面向图像语义分割的半监督对抗学习方法。方法 在生成对抗网络的分割网络中附加两层自注意模块,在空间维度上对语义依赖关系进行建模。自注意模块通过对所有位置的特征进行加权求和,有选择地在每个位置聚合特征。因而能够在像素级正确标记值数据的基础上有效处理输入图像中广泛分离的空间区域之间的关系。同时,为解决提出的半监督对抗学习方法的稳定性问题,在训练过程中将谱归一化应用到对抗网络的判别器中,这种加权归一化方法不仅可以稳定判别器网络的训练,并且不需要对唯一的超参数进行密集调整即可获得满意性能,且实现简单,计算量少,即使在缺乏互补的正则化...  相似文献   

13.
目的 6D姿态估计是3D目标识别及重建中的一个重要问题。由于很多物体表面光滑、无纹理,特征难以提取,导致检测难度大。很多算法依赖后处理过程提高姿态估计精度,导致算法速度降低。针对以上问题,本文提出一种基于热力图的6D物体姿态估计算法。方法 首先,采用分割掩码避免遮挡造成的热力图污染导致的特征点预测准确率下降问题。其次,基于漏斗网络架构,无需后处理过程,保证算法具有高效性能。在物体检测阶段,采用一个分割网络结构,使用速度较快的YOLOv3(you only look once v3)作为网络骨架,目的在于预测目标物体掩码分割图,从而减少其他不相关物体通过遮挡带来的影响。为了提高掩码的准确度,增加反卷积层提高特征层的分辨率并对它们进行融合。然后,针对关键点采用漏斗网络进行特征点预测,避免残差网络模块由于局部特征丢失导致的关键点检测准确率下降问题。最后,对检测得到的关键点进行位姿计算,通过PnP (perspective-n-point)算法恢复物体的6D姿态。结果 在有挑战的Linemod数据集上进行实验。实验结果表明,本文算法的3D误差准确性为82.7%,与热力图方法相比提高了10%;2D投影准确性为98.9%,比主流算法提高了4%;同时达到了15帧/s的检测速度。结论 本文提出的基于掩码和关键点检测算法不仅有效提高了6D姿态估计准确性,而且可以维持高效的检测速度。  相似文献   

14.
人类在认识事物时往往是从粗到细再到精,受认识过程的启发,根据手的拓扑结构设计了一种新的手势估计网络。该方法首先从手的角度提取全局特征,然后从手指角度提取局部特征,最后从关节点的角度提取点的细化特征,并融合三个不同阶段特征回归出每一关节点的3D空间坐标值,从而改善了回归精度。由于深度图只保存了目标点到相机的深度信息,以深度图作为神经网络的输入不利于卷积核获取其他两个方向的坐标信息;为了能在2D卷积核中直接利用空间坐标的全部信息,利用相机成像原理对深度图进行转换,将深度图转换为3通道的图像,这样提高了神经网络的回归精度。最后在公开数据集NYU和MSARA上进行训练和测试,测试结果表明,提出的网络结构及输入数据的转变都取得了良好的效果。  相似文献   

15.
视觉SLAM(Simultaneous Localization And Mapping,同时定位与建图)是移动机器人领域的核心技术,传统视觉SLAM还难以适用于高动态场景并且地图中缺少语义信息。提出一种动态环境语义SLAM方法,用深度学习网络对图像进行目标检测,检测动态目标所在区域,对图像进行特征提取并剔除动态物体所在区域的特征点,利用静态的特征点进行位姿计算,对关键帧进行语义分割,在构建语义地图时滤除动态物体的地图点构建出无动态物体干扰的语义地图。在TUM数据集上进行实验,结果显示该方法在动态环境下可以提升88.3%位姿估计精度,并且可同时构建出无动态物体干扰的语义地图。  相似文献   

16.
Pabitha  C.  Vanathi  B. 《Neural Processing Letters》2021,53(1):319-337

In the medical image processing, automatic segmentation of burn images is one of the critical tasks in the classification of skin burn into normal and burn area. Traditional models identify the burns from the image and distinguish the region as burn and non-burn regions. However, the earlier models cannot accurately classify the wound region and also requires more time in the prediction of burns. Also, the burn depth analysis is an important factor for the calculation of the percentage of burn depth i.e. degree of severity is analyzed by Total body surface area (TBSA). For those issues, we design a hybrid approach named DenseMask Regional convolutional neural network (RCNN) approach for segmenting the skin burn region based on the various degrees of burn severity. In this, hybrid integration of Mask-region based convolution neural network CNN (Mask R-CNN) and dense pose estimation are integrated into DenseMask RCNN that calculate the full-body human pose and performs semantic segmentation. At first, we use the Residual Network with a dilated convolution using a weighted mapping model to generate the dense feature map. Then the feature map is fed into the Region proposal network (RPN) which utilizes a Feature pyramid network (FPN) to detect the objects at different scales of location and pyramid level from the input images. For the accurate alignment of pixel-to-pixel labels, we introduce a Region of interest (RoI)-pose align module that properly aligns the objects based on the human pose with the characteristics of scale, right-left, translation, and left–right flip to a standard scale. After the alignment task, a cascaded fully convolutional architecture is employed on the top of the RoI module that performs mask segmentation and dense pose regression task simultaneously. Finally, the transfer learning model classifies the detected burn regions into three classes of wound depths. Experimental analysis is performed on the burn dataset and the result obtained shows better accuracy than the state-of-art approaches.

  相似文献   

17.
视线估计能够反映人的关注焦点,对理解人类的情感、兴趣等主观意识有重要作用。但目前用于视线估计的单目眼睛图像容易因头部姿态的变化而失真,导致视线估计的准确性下降。提出一种新型分类视线估计方法,利用三维人脸模型与单目相机的内在参数,通过人脸的眼睛与嘴巴中心的三维坐标形成头部姿态坐标系,从而合成相机坐标系与头部姿态坐标系,并建立归一化坐标系,实现相机坐标系的校正。复原并放大归一化得到的灰度眼部图像,建立基于表观的卷积神经网络模型分类方法以估计视线方向,并利用黄金分割法优化搜索,进一步降低误差。在MPIIGaze数据集上的实验结果表明,相比已公开的同类算法,该方法能降低约7.4%的平均角度误差。  相似文献   

18.
Gao  Wenchang  Yu  Lei  Tan  Yao  Yang  Pengna 《Applied Intelligence》2022,52(12):14085-14100

The aim of image fusion is to obtain a clear image by combining useful information coming from multiple images. However, the fused image usually has the problem of artifacts and unclear boundary. To address these problems, a deep convolutional neural network based framework for multi-focus image fusion is proposed in this paper, called multi-scale inception module convolutional neural network (MSIMCNN). MSIMCNN converts the entire image into a binary mask to estimate the focus characteristics, and obtains the clear boundary between focus and defocus. First of all, a pair of focus images and the corresponding feature images detected by the Laplace operator are inputted into the network. The Laplace operator can detect the edge and gradient of focus in the image, which can help us accurately reconstruct the focused area in the focus map and distinguish the focus and defocus boundaries. Then, in the feature extraction stage, different scales of convolution kernels are designed to extract the rich and complementary features at different scales of the source images. At the same time, the inception module is added to increase the width of the network and reduce the parameters, which can extract more focus features required for image reconstruction and reduce the complexity. Finally, the focus map of the source image pair can be obtained in the feature reconstruction stage. In this stage, an efficient method is proposed to make the focus mask, which is used for the calculation of the loss function and the generation of the training set. The experimental results on different data sets confirm the superiority and effectiveness of MSIMCNN compared with other methods.

  相似文献   

19.
程广涛  巩家昌  李建 《计算机应用》2020,40(5):1465-1469
针对传统烟雾检测方法中提取的图像特征鲁棒性较差的问题,提出了基于稠密卷积神经网络(DenseNet)的烟雾识别方法。首先,利用卷积操作和特征图融合构建稠密网络块,在卷积层之间设计稠密连接机制,以增强稠密网络块结构内的信息流通和特征重利用;然后,将已构建的稠密网络块叠加成稠密卷积神经网络用于烟雾识别,节省计算资源的同时提升对烟雾图像特征的表达能力;最后,针对烟雾图像数据量较小的问题,采取数据增强技术进一步改善训练模型的识别能力。在公开烟雾数据集上对提出的方法进行实验验证,实验结果表明,所提方法的模型大小只有0.44 MB,在两个测试集上的准确率分别为96.20%和96.81%。  相似文献   

20.
为了提高高纬度地区云雪卫星图像的识别准确率,提出了密集连接空洞卷积神经网络与空洞卷积相结合的方法进行云雪卫星图像识别研究。该方法首先采用常规卷积层对图像进行处理得到特征图,然后采用多个密集块和过渡层对特征图进行处理。其中,密集块中采用跨层连接的方式实现了网络中所用层的特征传递,使得大量云雪特征得到重用,同时减轻了训练过程中的梯度消失问题。密集块中的卷积核采用空洞卷积,在减少参数量的同时扩大局部感受野,对云雪的光谱信息进行特征提取。最后,该方法采用平均全局池化层与全连接层得到云雪图像的预测结果。实验结果表明,与其他机器学习方法相比,该方法能够提高卫星云雪图像的识别准确率,具有良好的泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号