首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
从图像中获取目标物体的6D位姿信息在机器人操作和虚拟现实等领域有着广泛的应用,然而,基于深度学习的位姿估计方法在训练模型时通常需要大量的训练数据集来提高模型的泛化能力,一般的数据采集方法存在收集成本高同时缺乏3D空间位置信息等问题.鉴于此,提出一种低质量渲染图像的目标物体6D姿态估计网络框架.该网络中,特征提取部分以单张RGB图像作为输入,用残差网络提取输入图像特征;位姿估计部分的目标物体分类流用于预测目标物体的类别,姿态回归流在3D空间中回归目标物体的旋转角度和平移矢量.另外,采用域随机化方法以低收集成本方式构建大规模低质量渲染、带有物体3D空间位置信息的图像数据集Pose6DDR.在所建立的Pose6DDR数据集和LineMod公共数据集上的测试结果表明了所提出位姿估计方法的优越性以及大规模数据集域随机化生成数据方法的有效性.  相似文献   

2.
提出了一种多物体环境下基于改进YOLOv2的无标定3D机械臂自主抓取方法。首先为了降低深度学习算法YOLOv2检测多物体边界框重合率和3D距离计算误差,提出了一种改进的YOLOv2算法。利用此算法对图像中的目标物体进行检测识别,得到目标物体在RGB图像中的位置信息; 然后根据深度图像信息使用K-means++聚类算法快速计算目标物体到摄像机的距离,估计目标物体大小和姿态,同时检测机械手的位置信息,计算机械手到目标物体的距离; 最后根据目标物体的大小、姿态和到机械手的距离,使用PID算法控制机械手抓取物体。提出的改进YOLOv2算法获得了更精准的物体边界框,边框交集更小,提高了目标物体距离检测和大小、姿态估计的准确率。为了避免了繁杂的标定,提出无标定抓取方法,代替了基于雅克比矩阵的无标定估计方法,通用性好。实验验证了提出的系统框架能对图像中物体进行较为准确的自动分类和定位,利用Universal Robot 3机械臂能够对任意摆放的物体进行较为准确的抓取。  相似文献   

3.
二维手部姿态估计是人机交互领域的一项关键技术。为增强复杂环境下系统鲁棒性,提高手势姿态估计精度,提出一种基于目标检测和热图回归的YOLOv3-HM算法。首先,利用YOLOv3算法从RGB图像中识别框选手部区域,采用CIoU作为边界框损失函数;然后,结合热图回归算法对手部的21个关键点进行标注;最终,通过回归手部热图实现二维手部姿态估计。分别在FreiHAND数据集与真实场景下进行测试,结果表明,该算法相较于传统手势检测算法在姿态估计精度和检测速度上均有所提高,对手部关键点的识别准确率达到99.28%,实时检测速度达到59 f/s,在复杂场景下均能精准实现手部姿态估计。  相似文献   

4.
基于2D特征的目标跟踪算法缺少3维信息,因此在目标尺度、姿态变化和平面旋转时会引起跟踪不稳定易丢失目标的问题,为此提出一种基于RGB‐D的在线多示例学习目标跟踪算法。利用深度数据的特性在深度图中和RGB图中构建多尺度空间,提取多尺度的 Haar‐D特征和 Haar特征;利用多实例学习策略将多尺度的 Haar‐D特征和 Haar特征融合。实验结果表明,该算法能很好得处理室内或室外环境下目标姿态变化、平面旋转和部分遮挡的问题。  相似文献   

5.
驾驶员头部姿态跟踪是车辆辅助驾驶系统中的关键问题之一,文中提出了一种基于3D人脸模型的驾驶员头部姿态鲁棒跟踪算法;首先,将3D人脸模型映射到第一帧图像中,获取到脸部区域及估计出初始姿态;然后,在脸部区域中跟踪并检测特征点,并把匹配结果作为基于模型的光束法平差机制的输入来恢复出3D人脸模型的头部姿态;为提高检测精度,在每帧脸部区域内重新提取特征点用于跟踪;实验结果表明,该算法在部分遮挡及大幅转动时是有效的.  相似文献   

6.
陈忠泽  黄国玉 《计算机应用》2008,28(5):1251-1254
提出一种由目标的立体图像通过人工神经网络实时估计得到其3D姿态的方法。网络的输入向量由同步立体图像帧上目标特征点的坐标构成;而输出向量则表示目标若干关键位置的三维姿态(进而可以建立目标的3D模型)。拟合该神经网络所需要的输出样本数据由运动捕获系统REACTOR获取。实验表明基于该算法的3D姿态估计误差低于5%,可以有效应用于3D虚拟目标的计算机实时合成等。  相似文献   

7.
鉴于RGB相机在虚拟现实头盔等移动计算设备中的普遍性,基于RGB图像的三维人手姿态估计技术具有广阔的应用前景和研究价值,近年来已成为计算机视觉领域的一个研究热点.得益于深度学习技术的快速发展,与之相关的三维人手姿态估计算法层出不穷.文中回顾和总结了三维人手姿态估计技术.首先简述了三维人手姿态估计的相关工作,指出了其当前面临的挑战;然后梳理了基于RGB图像的三维人手姿态估计算法,对现有的基于参数模型方法和非参数模型方法进行了讨论,分析了每类算法包含的技术方法以及优缺点;之后总结了相关的三维手数据集与评价标准,并比较了每类算法在常用数据集上的表现;最后探讨了该技术的发展前景.  相似文献   

8.
何建航  孙郡瑤  刘琼 《软件学报》2024,35(4):2039-2054
深度歧义是单帧图像多人3D姿态估计面临的重要挑战,提取图像上下文对缓解深度歧义极具潜力.自顶向下方法大多基于人体检测建模关键点关系,人体包围框粒度粗背景噪声占比较大,极易导致关键点偏移或误匹配,还将影响基于人体尺度因子估计绝对深度的可靠性.自底向上的方法直接检出图像中的人体关键点再逐一恢复3D人体姿态.虽然能够显式获取场景上下文,但在相对深度估计方面处于劣势.提出新的双分支网络,自顶向下分支基于关键点区域提议提取人体上下文,自底向上分支基于三维空间提取场景上下文.提出带噪声抑制的人体上下文提取方法,通过建模“关键点区域提议”描述人体目标,建模姿态关联的动态稀疏关键点关系剔除弱连接减少噪声传播.提出从鸟瞰视角提取场景上下文的方法,通过建模图像深度特征并映射鸟瞰平面获得三维空间人体位置布局;设计人体和场景上下文融合网络预测人体绝对深度.在公开数据集MuPoTS-3D和Human3.6M上的实验结果表明:与同类先进模型相比,所提模型HSC-Pose的相对和绝对3D关键点位置精度至少提高2.2%和0.5%;平均根关键点位置误差至少降低4.2 mm.  相似文献   

9.
多信息融合的多姿态三维人脸面部五官标志点定位方法   总被引:1,自引:0,他引:1  
针对三维人脸模型面部五官标志点定位对姿态变化非常敏感的问题,提出了一种基于多信息融合的多姿态三维人脸五官标志点定位方法.首先对二维人脸纹理图像采用仿射不变的Affine- SIFT方法进行特征点检测,再利用映射关系将其投影到三维空间,并采用局部邻域曲率变化最大规则和迭代约束优化相结合的方法对面部五官标志点进行精确定位.在FRGC2.0和自建NPU3D数据库的实验结果表明,文中方法无需对姿态和三维数据的格式进行预先估计和定义,算法复杂度低,同时对人脸模型的姿态有着较强的鲁棒性,与现有五官标志点定位方法相比,有着更高的定位精度.  相似文献   

10.
目的 6D姿态估计是3D目标识别及重建中的一个重要问题。由于很多物体表面光滑、无纹理,特征难以提取,导致检测难度大。很多算法依赖后处理过程提高姿态估计精度,导致算法速度降低。针对以上问题,本文提出一种基于热力图的6D物体姿态估计算法。方法 首先,采用分割掩码避免遮挡造成的热力图污染导致的特征点预测准确率下降问题。其次,基于漏斗网络架构,无需后处理过程,保证算法具有高效性能。在物体检测阶段,采用一个分割网络结构,使用速度较快的YOLOv3(you only look once v3)作为网络骨架,目的在于预测目标物体掩码分割图,从而减少其他不相关物体通过遮挡带来的影响。为了提高掩码的准确度,增加反卷积层提高特征层的分辨率并对它们进行融合。然后,针对关键点采用漏斗网络进行特征点预测,避免残差网络模块由于局部特征丢失导致的关键点检测准确率下降问题。最后,对检测得到的关键点进行位姿计算,通过PnP (perspective-n-point)算法恢复物体的6D姿态。结果 在有挑战的Linemod数据集上进行实验。实验结果表明,本文算法的3D误差准确性为82.7%,与热力图方法相比提高了10%;2D投影准确性为98.9%,比主流算法提高了4%;同时达到了15帧/s的检测速度。结论 本文提出的基于掩码和关键点检测算法不仅有效提高了6D姿态估计准确性,而且可以维持高效的检测速度。  相似文献   

11.
We propose an end-to-end deep learning architecture for simultaneously detecting objects and recovering 6D poses in an RGB image. Concretely, we extend the 2D detection pipeline with a pose estimation module to indirectly regress the image coordinates of the object's 3D vertices based on 2D detection results. Then the object's 6D pose can be estimated using a Perspective-n-Point algorithm without any post-refinements. Moreover, we elaborately design a backbone structure to maintain spatial resolution of low level features for pose estimation task. Compared with state-of-the-art RGB based pose estimation methods, our approach achieves competitive or superior performance on two benchmark datasets at an inference speed of 25 fps on a GTX 1080Ti GPU, which is capable of real-time processing.  相似文献   

12.
手部姿态估计在人机交互、手功能评估、虚拟现实和增强现实等应用中发挥着重要作用, 为此本文提出了一种新的手部姿态估计方法, 以解决手部区域在大多数图像中占比较小和已有单视图关键点检测算法无法应对遮挡情况的问题. 所提方法首先通过引入Bayesian卷积网络的语义分割模型提取手部目标区域, 在此基础上针对手部定位结果, 利用所提基于注意力机制和级联引导策略的新模型以获得较为准确的手部二维关键点检测结果.然后提出了一种利用立体视觉算法计算关键点深度信息的深度网络, 并在深度估计中提供视角自学习的功能. 该方式以三角测量为基础, 利用RANSAC算法对测量结果进行校准. 最后经过多任务学习和重投影训练对手部关键点的3D检测结果进行优化, 最终提取手部关键点的三维姿态信息. 实验结果表明: 相比于已有的一些代表性人手区域检测算法, 本文方法在人手区域检测上的平均检测精度和运算时间上有一定的改善. 此外, 从本文所提姿态估计方法与已有其他方法的平均端点误差(EPE_mean)和PCK曲线下方面积(AUC)这些指标的对比结果来看, 本文方法的关键点检测性能更优, 因而能获得更好的手部姿态估计结果.  相似文献   

13.
3D human pose estimation in motion is a hot research direction in the field of computer vision. However, the performance of the algorithm is affected by the complexity of 3D spatial information, self-occlusion of human body, mapping uncertainty and other problems. In this paper, we propose a 3D human joint localization method based on multi-stage regression depth network and 2D to 3D point mapping algorithm. First of all, we use a single RGB image as the input, through the introduction of heatmap and multi-stage regression to constantly optimize the coordinates of human joint points. Then we input the 2D joint points into the mapping network for calculation, and get the coordinates of 3D human body joint points, and then to complete the 3D human body pose estimation task. The MPJPE of the algorithm in Human3.6 M dataset is 40.7. The evaluation of dataset shows that our method has obvious advantages.  相似文献   

14.
物体位姿估计是机器人在散乱环境中实现三维物体拾取的关键技术,然而目前多数用于物体位姿估计的深度学习方法严重依赖场景的RGB信息,从而限制了其应用范围。提出基于深度学习的六维位姿估计方法,在物理仿真环境下生成针对工业零件的数据集,将三维点云映射到二维平面生成深度特征图和法线特征图,并使用特征融合网络对散乱场景中的工业零件进行六维位姿估计。在仿真数据集和真实数据集上的实验结果表明,该方法相比传统点云位姿估计方法准确率更高、计算时间更短,且对于疏密程度不一致的点云以及噪声均具有更强的鲁棒性。  相似文献   

15.
目的 视觉定位旨在利用易于获取的RGB图像对运动物体进行目标定位及姿态估计。室内场景中普遍存在的物体遮挡、弱纹理区域等干扰极易造成目标关键点的错误估计,严重影响了视觉定位的精度。针对这一问题,本文提出一种主被动融合的室内定位系统,结合固定视角和移动视角的方案优势,实现室内场景中运动目标的精准定位。方法 提出一种基于平面先验的物体位姿估计方法,在关键点检测的单目定位框架基础上,使用平面约束进行3自由度姿态优化,提升固定视角下室内平面中运动目标的定位稳定性。基于无损卡尔曼滤波算法设计了一套数据融合定位系统,将从固定视角得到的被动式定位结果与从移动视角得到的主动式定位结果进行融合,提升了运动目标的位姿估计结果的可靠性。结果 本文提出的主被动融合室内视觉定位系统在iGibson仿真数据集上的平均定位精度为2~3 cm,定位误差在10 cm内的准确率为99%;在真实场景中平均定位精度为3~4 cm,定位误差在10 cm内的准确率在90%以上,实现了cm级的定位精度。结论 提出的室内视觉定位系统融合了被动式和主动式定位方法的优势,能够以较低设备成本实现室内场景中高精度的目标定位结果,并在遮挡、目标...  相似文献   

16.
为解决有纹理模型在遮挡条件下6D位姿估计精确度不高的问题,提出了一种局部特征表征的端到端6D位姿估计算法。首先为了得到准确的定位信息,提出了一个空间—坐标注意力机制(spatial and coordinate attention),通过在YOLOv5网络中加入空间—坐标注意力机制和加权双向特征金字塔网络(bidirectional feature pyramid network),YOLOv5-CBE算法的精确度(precision)、召回率(recall)、平均精度均值(mAP@0.5)分别提升了3.6%、2.8%、2.5%,局部特征中心点坐标误差最高提升了25%;然后用 YOLOv5-CBE算法检测局部特征关键点,结合3D Harris关键点通过奇异值分解法(singular value decomposition)计算模型的6D位姿,最高遮挡70%的情况下仍然可以保证二维重投影精度(2D reprojection accuracy)和ADD度量精度(ADD accuracy)在95%以上,具有较强的鲁棒性。  相似文献   

17.
Sun  Shantong  Liu  Rongke  Du  Qiuchen  Sun  Shuqiao 《Neural Processing Letters》2020,51(3):2417-2436
Neural Processing Letters - Deep learning method for 6D object pose estimation based on RGB image and depth (RGB-D) has been successfully applied to robot grasping. The fusion of RGB and depth is...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号