首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
作为人工智能计算机视觉领域一项重要的任务,3D人体姿态估计受到了广泛的关注,并成功地应用在人机交互、电影游戏制作等领域。然而,3D人体姿态估计仍然面临着很大的挑战,主要是人体遮挡问题和数据集视角冗余问题,这些问题严重影响了3D人体姿态估计结果精度与速度的提升。本文提出了一种基于多特征提取的3D人体姿态估计方法。首先通过采集多个相机视角下的图片数据,将所采图片数据放入2D人体关节点检测网络模型中,得到人体2D关节点。接着将采集到的人体数据输入到关节点置信度计算网络模型,得到视角图片中各个关节点的权重值。随后将2D人体关节点热图通过一个热图权重计算网络计算出热图权重,将各个视角下的权重特征计算融合得到加权后的2D人体关节点热图。最后将所得加权后的2D人体关节点热图和视角图片中各个关节点的权重值输入到三角化算法中,映射得到空间中的3D人体关节点。本文的关键思想是设计一个关节点置信度计算网络从输入图像中学习每个关节的置信度权重,同时提取了反映热图特征质量的权重矩阵,以提高遮挡视图中热图的特征质量。此外,使用感知哈希算法对Occlusion-Person数据集进行去视角实验,在保证结果准确性的同...  相似文献   

2.
乔稳  刘惠义 《信息技术》2021,(4):17-23,29
针对交警动作中的姿态估计问题,提出一种改进的堆叠沙漏网络模型。该模型通过减少沙漏网络级联次数,来简化堆叠沙漏网络结构。利用多尺度下深浅层特征信息之间的聚合,得到丰富的上下文信息,增强姿态、遮挡、低分辨率图像的鲁棒性。将不同阶段产生的热图估计结果进行融合平均化处理,进一步提高局部位置坐标的精细定位以及整体估计结果的准确性。在MPII数据集以及中国交警数据集上进行实验,结果表明,改进后的网络模型提高了运行的效率,同时可以很好地对目标交警的姿态特征信息进行提取,对结果热图平均化处理后,提高了位置坐标整体估计的准确性。  相似文献   

3.
超宽带多输入多输出(Multiple-input Multiple-output, MIMO)雷达可以获取目标的多维信息,在目标探测和人体动作分类等方面有很大的优势。然而,在实际应用中,超宽带MIMO雷达获取的人体目标成像结果通常分辨率较低,抽象难懂,且目标距离越远雷达图像分辨率越低。针对以上问题,本文提出了一种基于距离辅助的超宽带MIMO雷达图像人体姿态重构网络,首先使用卷积神经网络提取人体目标成像的信号强度和空间位置特征,然后使用反卷积模块重构出人体目标的各个关节点位置。同时,考虑雷达成像结果随着距离的变远而恶化,本文将目标的距离作为辅助信息来选择合适的网络模型参数,进而提高姿态重构的精度。实验结果表明,本方法可以将抽象的人体目标雷达图像转化为易于理解的人体关节姿态,且有较好的姿态重构性能,极大增强了传统雷达图像的可视化性能。同时,距离信息的引入提高了姿态重构精度,有效克服了距离增大带来的影响。   相似文献   

4.
针对目前大多数行为识别算法可识别动作单一且复杂背景下准确性较低的问题,提出一种基于关节点的行为识别方法,首先,使用多目标跟踪模型FairMot将视频中的人体用矩形框标记,然后再使用姿态估计模型AlphaPose模型估计视频中人物的骨骼关节点位置,同时将人物关节点数据进行组合,使其能够代表动作特征,最后,利用长短期记忆网络将组合出的动作特征序列作为输入进行识别,最终输出为某一具体动作。实验结果表明,直接对人物关节点进行动作识别,去除了背景等干扰,识别的准确率达到了91.73%,实现了特定场景下的行为识别。  相似文献   

5.
随着人口老龄化的到来,跌倒检测逐渐成为研究热点。针对基于毫米波雷达的人体跌倒检测应用,该文提出了一种融合卷积神经网络和长短时记忆网络的距离多普勒热图序列检测网络(RDSNet)模型。首先通过卷积神经网络对距离多普勒热图进行特征提取得到特征向量,然后将动态序列对应的特征向量序列依次输入长短时记忆网络,进而学习得到热图序列的时间相关性信息,最后通过分类器网络得到检测结果。利用毫米波雷达采集了不同对象的多种人体动作,构建了距离多普勒热图数据集。对比试验表明,所提出的RDSNet网络模型检测准确率可达到96.67%,计算时延小于50 ms,而且具有良好的泛化能力,可为跌倒检测和人体姿态识别提供新的技术思路。   相似文献   

6.
徐晓冰  左涛涛  孙百顺  李奇越  吴刚 《红外与激光工程》2022,51(4):20210188-1-20210188-8
针对目前人体动作识别技术中存在的隐私暴露、技术复杂度高和识别精度低等相关问题,提出了一种基于热释电红外(PIR)传感器的人体动作识别方法。首先,采用一组安置在天花板上经过视场调制的PIR传感器采集人体运动时散发的红外热辐射信号,将传感器输出的电压模拟信号进行滤波放大后通过ZigBee无线模块传送到PC端打包成原始数据集;其次,将原始数据的两路传感器输出数据进行特征融合,对融合后的数据做标准化处理封装为训练集和测试集;然后,基于数据的特征提出一种两层级联的混合深度学习网络模型作为人体动作的分类算法,第一层采用一维卷积神经网络(1DCNN)对数据进行特征提取,第二层采用门控循环单元(GRU)保存历史输入信息防止丢失有效特征;最后,利用训练集来训练该网络模型得出参数最优的分类模型,通过测试集验证模型的正确性。实验结果表明,提出的该动作识别技术模型对基本动作分类的准确率高于98%,与图像动作识别或穿戴式设备动作识别相比,实现了实时、便捷、低成本和高保密性的高精度人体动作识别。  相似文献   

7.
头部姿态估计是人类行为和注意力的关键,受到光照、噪声、身份、遮挡等许多因素的影响。为了提高非约束环境下的估计准确率和鲁棒性,该论文提出了树结构分层随机森林在非约束环境下的多类头部姿态估计。首先,为了消除不同环境的噪声影响,提取人脸区域的组合纹理特征,对人脸区域进行积极人脸子区域的分类,分类结果作为树结构分层随机森林的先验知识输入;其次,提出了一种树结构分层随机森林算法,分层估计多自由度下的头部姿态;再次,为了增强算法的分类能力,使用自适应高斯混合模型作为多层次子森林叶子节点的投票模型。在多个公共数据集上的多种非约束实验环境下进行头部姿态估计,最终实验结果表明所提算法在不同质量的图像上都有很好的估计准确率和鲁棒性。  相似文献   

8.
人体姿态估计是计算机视觉研究领域的热点研究问题之一,但其在传统民间舞蹈动作姿态估计方面的应用研究尚处于起步阶段.由于舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点,传统人体姿态估计方法难以准确估计舞蹈者的动作变化,导致舞蹈动作姿态估计准确率较低.针对此问题,本文提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法,该方法针对舞蹈动作骨骼关节点尺度变化剧烈的问题,构建基于序列多尺度特征融合表示的关节点估计模型.并且,针对舞蹈姿态形变较大,遮挡严重的问题,设计基于关节点几何关系的层级姿态估计模型,提高舞蹈动作姿态估计的效果.实验结果表明,本文方法在标准人体姿态估计数据集及自建舞蹈数据集上取得较好的姿态估计结果.  相似文献   

9.
人体姿态估计和动作识别在安防、医疗和运动等领域有着重要的应用价值。为了解决不同背景及角度下各类运动动作的人体姿态估计和动作识别问题,本文提出了一种改进的YOLOv7-POSE算法,并自行拍摄制作各种拍摄角度的数据集进行训练。此算法以YOLOv7为基础,对原始网络模型添加了分类的功能,在Backbone主干网络中引入CA卷积注意力机制,提升了网络在对人体骨骼关节点和动作的分类的重要特征的识别能力。用HorNet网络结构代替原模型的CBS卷积核,提高了模型的人体关键点检测精度和动作分类的准确度。将Head层的空间金字塔池化结构替换为空洞空间金字塔池化结构,提升了检测精度并且加快了模型收敛。将目标检测框的回归函数由CIOU替换为EIOU,提高了坐标回归的精度。设计了两组对照实验,实验结果证明,改进后的YOLOv7-POSE在验证集上的mAP为95.7%,相比于原始YOLOv7算法提高了4%,各类运动动作识别准确率显著上升,在实际推理中的关键点错检、漏检等情况明显减少,关键点位置估计误差明显降低。  相似文献   

10.
针对红外视频缺少纹理细节特征以致在人体行为识别中难以兼顾计算复杂度与识别准确率的问题,提出一种基于全局双线性注意力的红外视频行为识别方法。为高效计算红外视频中的人体行为,设计基于两级检测网络的关节点提取模块来获得人体关节点信息,创新性地将所形成的关节点三维热图作为红外视频人体行为识别网络的输入特征;为了在轻量化计算的基础上进一步提升识别准确率,提出一种全局双线性注意力的三维卷积网络,从空间和通道两个维度提升注意力的建模能力,捕获全局结构信息。在InfAR和IITR-IAR数据集上的实验结果表明,该方法在红外视频行为识别中的有效性。  相似文献   

11.
Hand pose estimation is a challenging task owing to the high flexibility and serious self-occlusion of the hand. Therefore, an optimized convolutional pose machine (OCPM) was proposed in this study to estimate the hand pose accurately. Traditional CPMs have two components, a feature extraction module and an information processing module. First, the backbone network of the feature extraction module was replaced by Resnet-18 to reduce the number of network parameters. Furthermore, an attention module called the convolutional block attention module (CBAM) is embedded into the feature extraction module to enhance the information extraction. Then, the structure of the information processing module was adjusted through a residual connection in each stage that consist of a series of continuous convolutional operations, and requires a dense fusion between the output from all previous stages and the feature extraction module. The experimental results on two public datasets showed that the OCPM network achieved excellent performance.  相似文献   

12.
为了满足目标检测任务实时性的要求,基于轻量级深度学习目标检测网络SSD_Mobilenetv1,通过改进其网络结构,以及增加更细粒特征图参与位置回归和分类来综合网络的上下文信息及引入反残差模块提升网络提取特征的能力,实验表明在保证实时检测速度的同时提高了检测精度,并在KITTI数据集上进行训练验证,取得了良好的效果。  相似文献   

13.
In this paper, a method is proposed to improve the accuracy of 3D hand pose estimation. The existing methods make poor use of the depth information of hand joints and have difficulties of estimating the 3D coordinates accurately. To solve this problem, a method that utilizing the information between adjacent joints of each finger is proposed to estimate the depth coordinates of joints. In order to make full use of 2D information for depth estimation, this paper divides hand pose estimation into two sub-tasks (2D hand joints estimation and depth estimation). In depth estimation, a multi-stage network is proposed. We first estimate the depth of a part of hand joints, and then with the help of it and 2D information, the depth coordinates of adjacent joints can be well estimated. The method proposed in this paper has been proved to be effective on three public hand pose datasets through Self-comparisons. Compared with the methods that based on 2D CNN, our method achieves state-of-the-art performance on ICVL and NYU datasets, and also has a good result on MSRA dataset.  相似文献   

14.
Human action recognition in videos is still an important while challenging task. Existing methods based on RGB image or optical flow are easily affected by clutters and ambiguous backgrounds. In this paper, we propose a novel Pose-Guided Inflated 3D ConvNet framework (PI3D) to address this issue. First, we design a spatial–temporal pose module, which provides essential clues for the Inflated 3D ConvNet (I3D). The pose module consists of pose estimation and pose-based action recognition. Second, for multi-person estimation task, the introduced pose estimation network can determine the action most relevant to the action category. Third, we propose a hierarchical pose-based network to learn the spatial–temporal features of human pose. Moreover, the pose-based network and I3D network are fused at the last convolutional layer without loss of performance. Finally, the experimental results on four data sets (HMDB-51, SYSU 3D, JHMDB and Sub-JHMDB) demonstrate that the proposed PI3D framework outperforms the existing methods on human action recognition. This work also shows that posture cues significantly improve the performance of I3D.  相似文献   

15.
Objects that occupy a small portion of an image or a frame contain fewer pixels and contains less information. This makes small object detection a challenging task in computer vision. In this paper, an improved Single Shot multi-box Detector based on feature fusion and dilated convolution (FD-SSD) is proposed to solve the problem that small objects are difficult to detect. The proposed network uses VGG-16 as the backbone network, which mainly includes a multi-layer feature fusion module and a multi-branch residual dilated convolution module. In the multi-layer feature fusion module, the last two layers of the feature map are up-sampled, and then they are concatenated at the channel level with the shallow feature map to enhance the semantic information of the shallow feature map. In the multi-branch residual dilated convolution module, three dilated convolutions with different dilated ratios based on the residual network are combined to obtain the multi-scale context information of the feature without losing the original resolution of the feature map. In addition, deformable convolution is added to each detection layer to better adapt to the shape of small objects. The proposed FD-SSD achieved 79.1% mAP and 29.7% mAP on PASCAL VOC2007 dataset and MS COCO dataset respectively. Experimental results show that FD-SSD can effectively improve the utilization of multi-scale information of small objects, thus significantly improve the effect of the small object detection.  相似文献   

16.
王小宇  李凡  曹琳  李军  张驰  彭圆  丛丰裕 《信号处理》2020,36(6):958-965
由于水声信号的高度复杂性,基于特征工程的传统水下目标识别方法表现欠佳。基于深度学习模型的水下目标识别方法可有效减少由于特征提取过程带来的水声信号信息损失,进而提高水下目标识别效果。本文提出一种适用于水下目标识别场景的卷积神经网络结构,即在卷积模块化设计中引入卷积核为1的卷积层,更大程度地保留水声信号局部特征,且降低模型的复杂程度;同时,以全局平均池化层替代全连接层的方式构造基于特征图对应的特征向量主导分类结果的网络结构,使结果更具可解释性,且减少训练参数降低过拟合风险。实验结果表明该方法得到的水下目标识别准确率(91.7%)要优于基于传统卷积神经网络(69.8%)和基于高阶统计量特征的传统方法识别表现(85%)。这说明本文提出的模型能更好保留水声信号的时域结构,进而提高分类识别效果。   相似文献   

17.
针对单个RGB图像,人体姿态估计通过对人体关键点定位来估计人体的位置和关节点位置。球类比赛是一种快速的运动,用主观观察对运动员的技术合法性进行判决无法避免错误。因此,文中利用基于人体姿态估计的运动员姿态分析技术进行辅助训练和辅助判罚,有效避免了传统系统中由于人的主观判断对运动员姿态的错误定位。目前,针对人体姿态估计的研究被分为基于传统算法和基于深度学习算法两种主要方式。在基于深度学习算法的基础上又分为单人人体姿态检测和多人人体姿态检测。基于深度学习算法的人体姿态估计通过构建神经网络,运用机器学习的方法提取图片特征读取图片信息,并在用于人体姿态估计的主流数据集上进行性能对比和分析。将人体姿态估计应用到球类运动中,为运动员的日常训练提供了一定的科学参考,同时也最大程度上保证了运动员比赛中的公平与公正。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号