首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 219 毫秒
1.
针对水下场景水下机器人(AUV)位姿数据集难以获取、现有的基于深度学习的位姿估计方法无法应用的问题,提出了一种基于合成数据的AUV视觉定位方法。首先基于Unity3D仿真搭建虚拟水下场景,通过虚拟相机获取仿真环境下已知的渲染位姿数据。其次,通过非配对图像转换工作实现渲染图片到真实水下场景下的风格迁移,结合已知渲染图片的位姿信息得到了合成的水下位姿数据集。最后,提出一种基于局部区域关键点投影的卷积神经网络(CNN)位姿估计方法,并基于合成数据训练网络,预测已知参考角点的2维投影,产生2D-3D点对,基于随机一致性采样的Perspective-n-Point(PnP)算法获得相对位置和姿态。本文在渲染数据集以及合成数据集上进行了定量实验,并在真实水下场景进行了定性实验,论证了所提出方法的有效性。实验结果表明,非配对图像转换能够有效消除渲染图像与真实水下图像之间的差距,所提出的局部区域关键点投影方法可以进行更有效的6D位姿估计。  相似文献   

2.
在6D物体姿态估计领域中, 现有算法往往难以实现对目标物体精准且鲁棒的姿态估计. 为解决该问题, 提出了一种结合残差注意力、混合空洞卷积和标准差信息的物体6D姿态细化网络. 首先, 在Gen6D图片特征提取网络中, 采用混合空洞卷积模块替换传统卷积模块, 以此扩大感受野、加强全局特征捕获能力. 接着, 在3D卷积神经网络中, 加入残差注意力模块, 这有助于区分特征通道的重要程度, 进而在提取关键特征的同时, 减少浅层特征的丢失. 最后, 在平均距离损失函数中, 引入了标准差信息, 从而使模型能够区分物体的更多姿态信息. 实验结果显示, 所提出的网络在LINEMOD数据集和GenMOP数据集上的ADD指标分别达到了68.79%和56.03%. 与Gen6D网络相比, ADD指标分别提升了1.78个百分点和5.64个百分点, 这一结果验证了所提出的网络能够显著提升6D姿态估计的准确性.  相似文献   

3.
针对工业上常见的弱纹理、散乱堆叠的物体的检测和位姿估计问题,提出了一种基于实例分割网络与迭代优化方法的工件识别抓取系统.该系统包括图像获取、目标检测和位姿估计3个模块.图像获取模块中,设计了一种对偶RGB-D相机结构,通过融合3张深度图像来获得更高质量的深度数据;目标检测模块对实例分割网络Mask R-CNN(region-based convolutional neural network)进行了改进,同时以彩色图像和包含3维信息的HHA(horizontal disparity,height above ground,angle with gravity)特征作为输入,并在其内部增加了STN(空间变换网络)模块,提升对弱纹理物体的分割性能,结合点云信息分割目标点云;在目标检测模块的基础上,位姿估计模块利用改进的4PCS(4-points congruent set)算法和ICP(迭代最近点)算法将分割出的点云和目标模型的点云进行匹配和位姿精修,得到最终位姿估计的结果,机器人根据此结果完成抓取动作.在自采工件数据集上和实际搭建的分拣系统上进行实验,结果表明,该抓取系统能够对不同形状、弱纹理、散乱堆叠的物体实现快速的目标识别和位姿估计,位置误差可达1 mm,角度误差可达1°,其性能可满足实际应用的要求.  相似文献   

4.
针对6DoF姿态估计需要收集与标注大量数据训练神经网络提出一种小数据集下面向目标6DoF姿态与尺寸估计的全卷积神经网络模型以降低人工操作成本。首先采用注意力机制与特征金字塔相结合的方式通过区域建议网络提取感兴趣区域,将该区域输入并行融合全卷积网络获得掩膜图;其次通过增加跳跃连接丰富每个卷积后的特征信息,将其融合并通过分类获得预测标准化坐标空间图;最后将得到的掩膜图与标准化坐标空间图通过三维点云配准获得目标的6DoF姿态与尺寸。实验表明,该方法在小数据集下较PVN3D方法精度提升约2.6%,较GPVPose方法精度提升约1%。  相似文献   

5.
王一  谢杰  程佳  豆立伟 《计算机应用》2023,(8):2546-2555
6自由度(DoF)位姿估计是计算机视觉与机器人技术中的一项关键技术,它能从给定的输入图像中估计物体的6DoF位姿,即3DoF平移和3DoF旋转,已经成为机器人操作、自动驾驶、增强现实等领域中的一项至关重要的任务。首先,介绍了6DoF位姿的概念以及基于特征点对应、基于模板匹配、基于三维特征描述符等传统方法存在的问题;然后,以基于特征对应、基于像素投票、基于回归和面向多物体实例、面向合成数据、面向类别级的不同角度详细介绍了当前主流的基于深度学习的6DoF位姿估计算法,归纳整理了在位姿估计方面常用的数据集以及评价指标,并对部分算法进行了实验性能评价;最后,给出了当前位姿估计面临的挑战和未来的重点研究方向。  相似文献   

6.
目的 受遮挡与累积误差因素的影响,现有目标6维(6 dimensions, 6D)姿态实时追踪方法在复杂场景中表现不佳。为此,提出了一种高鲁棒性的刚体目标6D姿态实时追踪网络。方法 在网络的整体设计上,将当前帧彩色图像和深度图像(red green blue-depth map,RGB-D)与前一帧姿态估计结果经升维残差采样滤波和特征编码处理获得姿态差异,与前一帧姿态估计结果共同计算目标当前的6D姿态;在残差采样滤波模块的设计中,采用自门控swish(searching for activation functions)激活函数保留目标细节特征,提高目标姿态追踪的准确性;在特征聚合模块的设计中,将提取的特征分解为水平与垂直两个方向分量,分别从时间和空间上捕获长程依赖并保留位置信息,生成一组具有位置与时间感知的互补特征图,加强目标特征提取能力,从而加速网络收敛。结果 实验选用YCBVideo(Yale-CMU-Berkeley-video)和YCBInEoAT(Yale-CMU-Berkeley in end-of-arm-tooling)数据集。实验结果表明,本文方法追踪速度达到90....  相似文献   

7.
刚体位姿估计旨在获取刚体在相机坐标系下的3D平移信息和3D旋转信息,在自动驾驶、机器人、增强现实等快速发展的领域起着重要作用。现对2017-2021年间的基于深度学习的刚体位姿估计方向具有代表性的研究进行汇总与分析。将刚体位姿估计的方法分为基于坐标、基于关键点和基于模板的方法。将刚体位姿估计任务划分为图像预处理、空间映射或特征匹配、位姿恢复和位姿优化4项子任务,详细介绍每一类方法的子任务实现及其优势和存在的问题。分析刚体位姿估计任务面临的挑战,总结现有解决方案及其优缺点。介绍刚体位姿估计常用的数据集和性能评价指标,并对比分析现有方法在常用数据集上的表现。最后从位姿跟踪、类别级位姿估计等多个角度对未来研究方向进行了展望。  相似文献   

8.
物体位姿估计是机器人在散乱环境中实现三维物体拾取的关键技术,然而目前多数用于物体位姿估计的深度学习方法严重依赖场景的RGB信息,从而限制了其应用范围。提出基于深度学习的六维位姿估计方法,在物理仿真环境下生成针对工业零件的数据集,将三维点云映射到二维平面生成深度特征图和法线特征图,并使用特征融合网络对散乱场景中的工业零件进行六维位姿估计。在仿真数据集和真实数据集上的实验结果表明,该方法相比传统点云位姿估计方法准确率更高、计算时间更短,且对于疏密程度不一致的点云以及噪声均具有更强的鲁棒性。  相似文献   

9.
为提高弱纹理目标和遮挡目标位姿估计的准确性,提出一种基于特征融合的6D目标位姿估计算法。从RGB-D图像中提取目标的颜色特征与点云特征;通过点集抽象在小区域内提取精细的局部几何特征,并扩展到更大局部区域,获得不同层次的局部几何特征以及目标的全局几何特征;将目标的颜色特征与几何特征进行融合,训练神经网络输出初始位姿。实验结果表明,与其它经典算法相比,该方法对于LineMOD数据集及YCB-Video数据集目标的平均位姿估计精度均有提升,对于弱纹理目标和遮挡目标均有较优表现。  相似文献   

10.
现有刚体姿态估计存在数据稀缺、复杂场景下的低鲁棒性及低实时性等问题,为此提出一种基于合成数据的刚体目标位姿追踪网络结构。采用时空间特征融合技术,捕捉时间与空间特征信息,生成具有时空敏感的特征图;利用残差连接学习更为丰富和抽象的优质特征,改善追踪目标的准确性;对稀缺数据进行数据增强,生成符合现实物理特性的复杂合成数据,以此训练深度学习模型,提高模型的泛化性。在YCB-Video数据集中选取7个物体进行实时姿态追踪实验,结果表明,提出的方法相较于同类相关方法,在复杂场景下对刚体姿态估计的更为准确,在实时估计效率上表现最优。  相似文献   

11.
针对目标的三维姿态估计,结合基于深度学习的目标检测模型,提出一种基于改进YOLO V2的6D目标姿态估计算法。通过卷积神经网络提取一幅RGB图像中目标的特征信息;在2D检测的基础上将目标的位置信息映射到三维空间;利用点到点的映射关系在三维空间匹配并计算目标的自由度,进而估计目标的6D姿态。该算法不仅能检测单幅RGB图像中的目标,还可以预测目标的6D姿态,同时不需要额外的后处理过程。实验表明,该算法在LineMod和Occlusion LineMod数据集上的性能优于最近提出的其他基于CNN的方法,在Titan X GPU上的运行速度是37?frame/s,适合实时处理。  相似文献   

12.
We propose a feature-fusion network for pose estimation directly from RGB images without any depth information in this study. First, we introduce a two-stream architecture consisting of segmentation and regression streams. The segmentation stream processes the spatial embedding features and obtains the corresponding image crop. These features are further coupled with the image crop in the fusion network. Second, we use an efficient perspective-n-point (E-PnP) algorithm in the regression stream to extract robust spatial features between 3D and 2D keypoints. Finally, we perform iterative refinement with an end-to-end mechanism to improve the estimation performance. We conduct experiments on two public datasets of YCB-Video and the challenging Occluded-LineMOD. The results show that our method outperforms state-of-the-art approaches in both the speed and the accuracy.  相似文献   

13.
目的 双目视觉是目标距离估计问题的一个很好的解决方案。现有的双目目标距离估计方法存在估计精度较低或数据准备较繁琐的问题,为此需要一个可以兼顾精度和数据准备便利性的双目目标距离估计算法。方法 提出一个基于R-CNN(region convolutional neural network)结构的网络,该网络可以实现同时进行目标检测与目标距离估计。双目图像输入网络后,通过主干网络提取特征,通过双目候选框提取网络以同时得到左右图像中相同目标的包围框,将成对的目标框内的局部特征输入目标视差估计分支以估计目标的距离。为了同时得到左右图像中相同目标的包围框,使用双目候选框提取网络代替原有的候选框提取网络,并提出了双目包围框分支以同时进行双目包围框的回归;为了提升视差估计的精度,借鉴双目视差图估计网络的结构,提出了一个基于组相关和3维卷积的视差估计分支。结果 在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)数据集上进行验证实验,与同类算法比较,本文算法平均相对误差值约为3.2%,远小于基于双目视差图估计算法(11.3%),与基于3维目标检测的算法接近(约为3.9%)。另外,提出的视差估计分支改进对精度有明显的提升效果,平均相对误差值从5.1%下降到3.2%。通过在另外采集并标注的行人监控数据集上进行类似实验,实验结果平均相对误差值约为4.6%,表明本文方法可以有效应用于监控场景。结论 提出的双目目标距离估计网络结合了目标检测与双目视差估计的优势,具有较高的精度。该网络可以有效运用于车载相机及监控场景,并有希望运用于其他安装有双目相机的场景。  相似文献   

14.
3D human pose estimation in motion is a hot research direction in the field of computer vision. However, the performance of the algorithm is affected by the complexity of 3D spatial information, self-occlusion of human body, mapping uncertainty and other problems. In this paper, we propose a 3D human joint localization method based on multi-stage regression depth network and 2D to 3D point mapping algorithm. First of all, we use a single RGB image as the input, through the introduction of heatmap and multi-stage regression to constantly optimize the coordinates of human joint points. Then we input the 2D joint points into the mapping network for calculation, and get the coordinates of 3D human body joint points, and then to complete the 3D human body pose estimation task. The MPJPE of the algorithm in Human3.6 M dataset is 40.7. The evaluation of dataset shows that our method has obvious advantages.  相似文献   

15.
Sun  Shantong  Liu  Rongke  Du  Qiuchen  Sun  Shuqiao 《Neural Processing Letters》2020,51(3):2417-2436
Neural Processing Letters - Deep learning method for 6D object pose estimation based on RGB image and depth (RGB-D) has been successfully applied to robot grasping. The fusion of RGB and depth is...  相似文献   

16.
目的 视觉定位旨在利用易于获取的RGB图像对运动物体进行目标定位及姿态估计。室内场景中普遍存在的物体遮挡、弱纹理区域等干扰极易造成目标关键点的错误估计,严重影响了视觉定位的精度。针对这一问题,本文提出一种主被动融合的室内定位系统,结合固定视角和移动视角的方案优势,实现室内场景中运动目标的精准定位。方法 提出一种基于平面先验的物体位姿估计方法,在关键点检测的单目定位框架基础上,使用平面约束进行3自由度姿态优化,提升固定视角下室内平面中运动目标的定位稳定性。基于无损卡尔曼滤波算法设计了一套数据融合定位系统,将从固定视角得到的被动式定位结果与从移动视角得到的主动式定位结果进行融合,提升了运动目标的位姿估计结果的可靠性。结果 本文提出的主被动融合室内视觉定位系统在iGibson仿真数据集上的平均定位精度为2~3 cm,定位误差在10 cm内的准确率为99%;在真实场景中平均定位精度为3~4 cm,定位误差在10 cm内的准确率在90%以上,实现了cm级的定位精度。结论 提出的室内视觉定位系统融合了被动式和主动式定位方法的优势,能够以较低设备成本实现室内场景中高精度的目标定位结果,并在遮挡、目标...  相似文献   

17.
Accurate visual hand pose estimation at joint level has several applications for human-robot interaction, natural user interfaces and virtual/augmented reality applications. However, it is still an open problem being addressed by the computer vision community. Recent novel deep learning techniques may help circumvent the limitations of standard approaches. However, they require large amounts of accurate annotated data.Hand pose datasets that have been released so far present issues such as limited number of samples, inaccurate data or high-level annotations. Moreover, most of them are focused on depth-based approaches, providing only depth information (missing RGB data).In this work, we present a novel multiview hand pose dataset in which we provide hand color images and different kind of annotations for each sample, i.e. the bounding box and the 2D and 3D location on the joints in the hand. Furthermore, we introduce a simple yet accurate deep learning architecture for real-time robust 2D hand pose estimation. Then, we conduct experiments that show how the use of the proposed dataset in the training stage produces accurate results for 2D hand pose estimation using a single color camera.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号