首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
目的 人脸配准是当前计算机视觉领域的研究热点之一,其目的是准确定位出人脸图像中具有语义特征的面部关键点,这也是人脸识别、人脸美化等众多与人脸有关的视觉任务的重要步骤。最近,基于级联回归的人脸配准算法在配准精度和速度上都达到了最先进的水准。级联回归是一种迭代更新的算法,初始脸形将通过多个线性组合的弱回归器逐渐逼近真实的人脸形状。但目前的算法大多致力于改进学习方法或提取具有几何不变性的特征来提升弱回归器的能力,而忽略了初始脸形的质量,这极大的降低了它们在复杂场景下的配准精度,如夸张的面部表情和极端的头部姿态等。因此,在现有的级联回归框架上,提出自动估计初始形状的多姿态人脸配准算法。方法 本文算法首先在脸部区域提取基于高斯滤波一阶导数的梯度差值特征,并使用随机回归森林预测人脸形状;然后针对不同的形状使用独立的级联回归器。结果 验证初始形状估计算法的有效性,结果显示,本文的初始化算法能给现有的级联回归算法带来精度上的提升,同时结果也更加稳定;本文算法产生的初始形状都与实际脸型较为相近,只需很少的初始形状即可取得较高的精度;在COFW、HELEN和300W人脸数据库上,将本文提出的多姿态级联回归算法和现有配准算法进行对比实验,本文算法的配准误差相较现有算法分别下降了29.2%、13.3%和9.2%,结果表明,本文算法能有效消除不同脸型之间的干扰,在多姿态场景下得到更加精确的配准结果,并能达到实时的检测速度。结论 基于级联回归模型的多姿态人脸配准算法可以取得优于现有算法的结果,在应对复杂的脸形时也更加鲁棒。所提出的初始形状估计算法可以自动产生高质量的初始形状,用于提升现有的级联回归算法。  相似文献   

2.
目的 视觉里程计(visual odometry,VO)仅需要普通相机即可实现精度可观的自主定位,已经成为计算机视觉和机器人领域的研究热点,但是当前研究及应用大多基于场景为静态的假设,即场景中只有相机运动这一个运动模型,无法处理多个运动模型,因此本文提出一种基于分裂合并运动分割的多运动视觉里程计方法,获得场景中除相机运动外多个运动目标的运动状态。方法 基于传统的视觉里程计框架,引入多模型拟合的方法分割出动态场景中的多个运动模型,采用RANSAC(random sample consensus)方法估计出多个运动模型的运动参数实例;接着将相机运动信息以及各个运动目标的运动信息转换到统一的坐标系中,获得相机的视觉里程计结果,以及场景中各个运动目标对应各个时刻的位姿信息;最后采用局部窗口光束法平差直接对相机的姿态以及计算出来的相机相对于各个运动目标的姿态进行校正,利用相机运动模型的内点和各个时刻获得的相机相对于运动目标的运动参数,对多个运动模型的轨迹进行优化。结果 本文所构建的连续帧运动分割方法能够达到较好的分割结果,具有较好的鲁棒性,连续帧的分割精度均能达到近100%,充分保证后续估计各个运动模型参数的准确性。本文方法不仅能够有效估计出相机的位姿,还能估计出场景中存在的显著移动目标的位姿,在各个分段路径中相机自定位与移动目标的定位结果位置平均误差均小于6%。结论 本文方法能够同时分割出动态场景中的相机自身运动模型和不同运动的动态物体运动模型,进而同时估计出相机和各个动态物体的绝对运动轨迹,构建出多运动视觉里程计过程。  相似文献   

3.
目的 针对由航空影像自动生成大范围3维地形的立体模型配准问题,提出一种自动配准全部立体模型的方法,从而生成大范围3维地形。方法 首先由相邻影像构建独立的立体模型;然后根据特征匹配同名点在公共影像上的坐标对应关系,自动提取相邻模型的连接点;通过循环遍历搜索,自动配准全部立体模型,进而构建全航摄区的大范围3维地形。结果 采用两组数据进行实验,结果显示,两组数据全部3维模型的均方配准误差分别为5.20像素和2.63像素。本文方法生成的大范围地形的相对精度较高;对第2组数据的结果采用控制点进行绝对定向,并用检查点进行精度评估,结果显示全部检查点的均方平面和高程误差分别为0.326 m和0.502 m,生成的大范围地形达到了较高的绝对精度。结论 本文方法可自动化执行,仅需输入一系列有一定重叠的航空影像,即可自动生成按一定方式组织的大范围3维地形产品。该方法生成的大范围地形既可用于3维场景浏览,也可用于地形量测,但不适用于由激光扫描获取的点云数据的配准。  相似文献   

4.
目的 无人机摄像资料的分辨率直接影响目标识别与信息获取,所以摄像分辨率的提高具有重大意义。为了改善无人机侦察视频质量,针对目前无人机摄像、照相数据的特点,提出一种无人机侦察视频超分辨率重建方法。方法 首先提出基于AGAST-Difference与Fast Retina Keypoint (FREAK)的特征匹配算法对视频目标帧与相邻帧之间配准,然后提出匹配区域搜索方法找到目标帧与航片的对应关系,利用航片对视频帧进行高频补偿,最后采用凸集投影方法对补偿后视频帧进行迭代优化。结果 基于AGAST-Difference与FREAK的特征匹配算法在尺度、旋转、视点等变化及运行速度上存在很大优势,匹配区域搜索方法使无人机视频的高频补偿连续性更好,凸集投影迭代优化提高了重建的边缘保持能力,与一种简单有效的视频序列超分辨率复原算法相比,本文算法重建质量提高约4 dB,运行速度提高约5倍。结论 提出了一种针对无人机的视频超分辨率重建方法,分析了无人机视频超分辨率问题的核心所在,并且提出基于AGAST-Difference与FREAK的特征匹配算法与匹配区域搜索方法来解决图像配准与高频补偿问题。实验结果表明,本文算法强化了重建图像的一致性与保真度,特别是对图像边缘细节部分等效果极为明显,且处理速度更快。  相似文献   

5.
目的 针对不同视点下具有视差的待拼接图像中,特征点筛选存在漏检率高和配准精度低的问题,提出了一种基于特征点平面相似性聚类的图像拼接算法。方法 根据相同平面特征点符合同一变换的特点,计算特征点间的相似性度量,利用凝聚层次聚类把特征点划分为不同平面,筛选误匹配点。将图像划分为相等大小的网格,利用特征点与网格平面信息计算每个特征点的权重,通过带权重线性变换计算网格的局部单应变换矩阵。最后利用多频率融合方法融合配准图像。结果 在20个不同场景图像数据上进行特征点筛选比较实验,随机抽样一致性(random sample consensus, RANSAC)算法的平均误筛选个数为30,平均误匹配个数为8,而本文方法的平均误筛选个数为3,平均误匹配个数为2。对20个不同场景的多视角图像,本文方法与AutoStitch(automatic stitching)、APAP(as projective as possible)和AANAP(adaptive as-natural-as-possible)等3种算法进行了图像拼接比较实验,本文算法相比性能第2的算法,峰值信噪比(peak signal to noise ratio,PSNR)平均提高了8.7%,结构相似性(structural similarity,SSIM)平均提高了9.6%。结论 由本文提出的基于特征点平面相似性聚类的图像拼接算法处理后的图像保留了更多的特征点,因此提高了配准精度,能够取得更好的拼接效果。  相似文献   

6.
目的 行人再识别是指在一个或者多个相机拍摄的图像或视频中实现行人匹配的技术,广泛用于图像检索、智能安保等领域。按照相机种类和拍摄视角的不同,行人再识别算法可主要分为基于侧视角彩色相机的行人再识别算法和基于俯视角深度相机的行人再识别算法。在侧视角彩色相机场景中,行人身体的大部分表观信息可见;而在俯视角深度相机场景中,仅行人头部和肩部的结构信息可见。现有的多数算法主要针对侧视角彩色相机场景,只有少数算法可以直接应用于俯视角深度相机场景中,尤其是低分辨率场景,如公交车的车载飞行时间(time of flight,TOF)相机拍摄的视频。因此针对俯视角深度相机场景,本文提出了一种基于俯视深度头肩序列的行人再识别算法,以期提高低分辨率场景下的行人再识别精度。方法 对俯视深度头肩序列进行头部区域检测和卡尔曼滤波器跟踪,获取行人的头部图像序列,构建头部深度能量图组(head depth energy map group,HeDEMaG),并据此提取深度特征、面积特征、投影特征、傅里叶描述子和方向梯度直方图(histogram of oriented gradient,HOG)特征。计算行人之间头部深度能量图组的各特征之间的相似度,再利用经过模型学习所获得的权重系数对各特征相似度进行加权融合,从而得到相似度总分,将最大相似度对应的行人标签作为识别结果,实现行人再识别。结果 本文算法在公开的室内单人场景TVPR (top view person re-identification)数据集、自建的室内多人场景TDPI-L (top-view depth based person identification for laboratory scenarios)数据集和公交车实际场景TDPI-B (top-view depth based person identification for bus scenarios)数据集上进行了测试,使用首位匹配率(rank-1)、前5位匹配率(rank-5)、宏F1值(macro-F1)、累计匹配曲线(cumulative match characteristic,CMC)和平均耗时等5个指标来衡量算法性能。其中,rank-1、rank-5和macro-F1分别达到61%、68%和67%以上,相比于典型算法至少提高了11%。结论 本文构建了表达行人结构与行为特征的头部深度能量图组,实现了适合低分辨率行人的多特征表达;提出了基于权重学习的相似度融合,提高了识别精度,在室内单人、室内多人和公交车实际场景数据集中均取得了较好的效果。  相似文献   

7.
目的 针对现有的Kinect传感器中彩色相机和深度相机标定尤其是深度相机标定精度差、效率低的现状,本文在现有的基于彩色图像和视差图像标定算法的基础上,提出一种快速、精确的改进算法。方法 用张正友标定法标定彩色相机,用泰勒公式化简深度相机中用于修正视差值的空间偏移量以简化由视差与深度的几何关系构建的视差畸变模型,并以该模型完成Kinect传感器的标定。结果 通过拍摄固定于标定平板上的标定棋盘在不同姿态下的彩色图像和视差图像,完成Kinect传感器的标定,获得彩色相机和深度相机的畸变参数及两相机之间的旋转和平移矩阵,标定时间为116 s,得到彩色相机的重投影误差为0.33,深度相机的重投影误差为0.798。结论 实验结果表明,该改进方法在保证标定精度的前提下,优化了求解过程,有效提高了标定效率。  相似文献   

8.
目的 RGB-D相机的外参数可以被用来将相机坐标系下的点云转换到世界坐标系的点云,可以应用在3维场景重建、3维测量、机器人、目标检测等领域。 一般的标定方法利用标定物(比如棋盘)对RGB-D彩色相机的外参标定,但并未利用深度信息,故很难简化标定过程,因此,若充分利用深度信息,则极大地简化外参标定的流程。基于彩色图的标定方法,其标定的对象是深度传感器,然而,RGB-D相机大部分则应用基于深度传感器,而基于深度信息的标定方法则可以直接标定深度传感器的姿势。方法 首先将深度图转化为相机坐标系下的3维点云,利用MELSAC方法自动检测3维点云中的平面,根据地平面与世界坐标系的约束关系,遍历并筛选平面,直至得到地平面,利用地平面与相机坐标系的空间关系,最终计算出相机的外参数,即相机坐标系内的点与世界坐标系内的点的转换矩阵。结果 实验以棋盘的外参标定方法为基准,处理从PrimeSense相机所采集的RGB-D视频流,结果表明,外参标定平均侧倾角误差为-1.14°,平均俯仰角误差为4.57°,平均相机高度误差为3.96 cm。结论 该方法通过自动检测地平面,准确估计出相机的外参数,具有很强的自动化,此外,算法具有较高地并行性,进行并行优化后,具有实时性,可应用于自动估计机器人姿势。  相似文献   

9.
目的 传统视觉场景识别(visual place recognition,VPR)算法的性能依赖光学图像的成像质量,因此高速和高动态范围场景导致的图像质量下降会进一步影响视觉场景识别算法的性能。针对此问题,提出一种融合事件相机的视觉场景识别算法,利用事件相机的低延时和高动态范围的特性,提升视觉场景识别算法在高速和高动态范围等极端场景下的识别性能。方法 本文提出的方法首先使用图像特征提取模块提取质量良好的参考图像的特征,然后使用多模态特征融合模块提取查询图像及其曝光区间事件信息的多模态融合特征,最后通过特征匹配查找与查询图像最相似的参考图像。结果 在MVSEC(multi-vehicle stereo event camera dataset)和RobotCar两个数据集上的实验表明,本文方法对比现有视觉场景识别算法在高速和高动态范围场景下具有明显优势。在高速高动态范围场景下,本文方法在MVSEC数据集上相较对比算法最优值在召回率与精度上分别提升5.39%和8.55%,在Robot‐Car数据集上相较对比算法最优值在召回率与精度上分别提升3.36%与4.41%。结论 本文提出了融合事件相机的视觉场景识别算法,利用了事件相机在高速和高动态范围场景的成像优势,有效提升了视觉场景识别算法在高速和高动态范围场景下的场景识别性能。  相似文献   

10.
目的 基于视觉的3维场景重建技术已在机器人导航、航拍地图构建和增强现实等领域得到广泛应用。不过,当相机出现较大运动时则会使得传统基于窄基线约束的3维重建方法无法正常工作。方法 针对宽基线环境,提出了一种融合高层语义先验的3维场景重建算法。该方法在马尔可夫随机场(MRF)模型的基础上,结合超像素的外观、共线性、共面性和深度等多种特征对不同视角图像中各个超像素的3维位置和朝向进行推理,从而实现宽基线条件下的初始3维重建。与此同时,还以递归的方式利用高层语义先验对相似深度超像素实现合并,进而对场景深度和3维模型进行渐进式优化。结果 实验结果表明,本文方法在多种不同的宽基线环境,尤其是相机运动较为剧烈的情况下,依然能够取得比传统方法更为稳定而精确的深度估计和3维场景重建效果。结论 本文展示了在宽基线条件下如何将多元图像特征与基于三角化的几何特征相结合以构建出精确的3维场景模型。本文方法采用MRF模型对不同视角图像中超像素的3维位置和朝向进行同时推理,并结合高层语义先验对3维重建的过程提供指导。与此同时,还使用了一种递归式框架以实现场景深度的渐进式优化。实验结果表明,本文方法在不同的宽基线环境下均能够获得比传统方法更接近真实描述的3维场景模型。  相似文献   

11.
With the development of computer vision technologies, 3D reconstruction has become a hotspot. At present, 3D reconstruction relies heavily on expensive equipment and has poor real-time performance. In this paper, we aim at solving the problem of 3D reconstruction of an indoor scene with large vertical span. In this paper, we propose a novel approach for 3D reconstruction of indoor scenes with only a Kinect. Firstly, this method uses a Kinect sensor to get color images and depth images of an indoor scene. Secondly, the combination of scale-invariant feature transform and random sample consensus algorithm is used to determine the transformation matrix of adjacent frames, which can be seen as the initial value of iterative closest point (ICP). Thirdly, we establish the relative coordinate relation between pair-wise frames which are the initial point cloud data by using ICP. Finally, we achieve the 3D visual reconstruction model of indoor scene by the top-down image registration of point cloud data. This approach not only mitigates the sensor perspective restriction and achieves the indoor scene reconstruction of large vertical span, but also develops the fast algorithm of indoor scene reconstruction with large amount of cloud data. The experimental results show that the proposed algorithm has better accuracy, better reconstruction effect, and less running time for point cloud registration. In addition, the proposed method has great potential applied to 3D simultaneous location and mapping.  相似文献   

12.
目的 由于室内点云场景中物体的密集性、复杂性以及多遮挡等带来的数据不完整和多噪声问题,极大地限制了室内点云场景的重建工作,无法保证场景重建的准确度。为了更好地从无序点云中恢复出完整的场景,提出了一种基于语义分割的室内场景重建方法。方法 通过体素滤波对原始数据进行下采样,计算场景三维尺度不变特征变换(3D scale-invariant feature transform,3D SIFT)特征点,融合下采样结果与场景特征点从而获得优化的场景下采样结果;利用随机抽样一致算法(random sample consensus,RANSAC)对融合采样后的场景提取平面特征,将该特征输入PointNet网络中进行训练,确保共面的点具有相同的局部特征,从而得到每个点在数据集中各个类别的置信度,在此基础上,提出了一种基于投影的区域生长优化方法,聚合语义分割结果中同一物体的点,获得更精细的分割结果;将场景物体的分割结果划分为内环境元素或外环境元素,分别采用模型匹配的方法、平面拟合的方法从而实现场景的重建。结果 在S3DIS (Stanford large-scale 3D indoor space dataset)数据集上进行实验,本文融合采样算法对后续方法的效率和效果有着不同程度的提高,采样后平面提取算法的运行时间仅为采样前的15%;而语义分割方法在全局准确率(overall accuracy,OA)和平均交并比(mean intersection over union,mIoU)两个方面比PointNet网络分别提高了2.3%和4.2%。结论 本文方法能够在保留关键点的同时提高计算效率,在分割准确率方面也有着明显提升,同时可以得到高质量的重建结果。  相似文献   

13.
提出一种改进的基于ORB(Oriented FAST and Rotated BRIEF)的RGB-D SLAM室内三维重建方法。前端利用改进的RANSAC(Random Sample Consensus)算法提升特征点匹配精度,结合PnP(Perspective-n-Point)实现点云图像的精确配准;后端采用位姿图进行优化,降低噪声数据对重建的影响;并利用回环检测控制重建过程中的误差累积。实验结果表明,所提出的特征点匹配方法能显著提高特征点的匹配精度,正确匹配率约为94%,较传统RANSAC算法提升6.5%;所提方法与传统RGB-D SLAM重建方法相比,重建结果质量更优,其中相机估计轨迹与真实轨迹互差RMS结果更佳,RMS值均小于0.08m。  相似文献   

14.
封泽希  张辉  谢永明  朱敏 《计算机应用》2011,31(4):1043-1046
目前计算机视觉三维重建方法因需布置和标定摄像机环形拍摄场或者需要结构光而存在应用局限性问题,且算法不稳定。为此提出一种将摄像机阵列和图像配准有机结合的4目阵列重建算法,该算法不需要结构光和现场标定摄像机。经过基于包含光照和阴影的复杂室内仿真图像的实验表明,该方法能稳定有效地进行密集点云重建,且能克服现有重建方法的应用局限性与不稳定等缺陷。  相似文献   

15.
林金花  姚禹  王莹 《自动化学报》2019,45(11):2178-2186
在机器视觉感知系统中,从不完整的被遮挡的目标对象中鲁棒重建三维场景及其语义信息至关重要.目前常用方法一般将这两个功能分开处理,本文将二者结合,提出了一种基于深度图及分离池化技术的场景复原及语义分类网络,依据深度图中的RGB-D信息,完成对三维目标场景的重建与分类.首先,构建了一种CPU端到GPU端的深度卷积神经网络模型,将从传感器采样的深度图像作为输入,深度学习摄像机投影区域内的上下文目标场景信息,网络的输出为使用改进的截断式带符号距离函数(Truncated signed distance function,TSDF)编码后的体素级语义标注.然后,使用分离池化技术改进卷积神经网络的池化层粒度结构,设计带细粒度池化的语义分类损失函数,用于回馈网络的语义分类重定位.最后,为增强卷积神经网络的深度学习能力,构建了一种带有语义标注的三维目标场景数据集,以此加强本文所提网络的深度学习鲁棒性.实验结果表明,与目前较先进的网络模型对比,本文网络的重建规模扩大了2.1%,所提深度卷积网络对缺失场景的复原效果较好,同时保证了语义分类的精准度.  相似文献   

16.
作为计算机视觉技术的一个重要分支,基于单目视觉的三维重建技术以其要求简单、成本低廉、易于实现等优点,得到了越来越多的关注。在室内环境下就智能机器人的同步定位以及环境地图创建(SLAM)算法展开了研究,引入RGB-D相机Kinect直接获取3D场景的深度信息,实现了一种基于单目视觉SLAM与Kinect的实时三维重建方法。  相似文献   

17.
18.
目的 许多先前的显著目标检测工作都是集中在2D的图像上,并不能适用于RGB-D图像的显著性检测。本文同时提取颜色特征以及深度特征,提出了一种基于特征融合和S-D概率矫正的RGB-D显著性检测方法,使得颜色特征和深度特征相互补充。方法 首先,以RGB图像的4个边界为背景询问节点,使用特征融合的Manifold Ranking输出RGB图像的显著图;其次,依据RGB图像的显著图和深度特征计算S-D矫正概率;再次,计算深度图的显著图并依据S-D矫正概率对该显著图进行S-D概率矫正;最后,对矫正后的显著图提取前景询问节点再次使用特征融合的Manifold Ranking方法进行显著优化,得到最终的显著图。结果 利用本文RGB-D显著性检测方法对RGBD数据集上的1 000幅图像进行了显著性检测,并与6种不同的方法进行对比,本文方法的显著性检测结果更接近人工标定结果。Precision-Recall曲线(PR曲线)显示在相同召回率下本文方法的准确率较其中5种方法高,且处理单幅图像的时间为2.150 s,与其他算法相比也有一定优势。结论 本文方法能较准确地对RGB-D图像进行显著性检测。  相似文献   

19.
艾青林  王威  刘刚江 《机器人》2022,44(4):431-442
为解决室内动态环境下现有RGB-D SLAM(同步定位与地图创建)系统定位精度低、建图效果差的问题,提出一种基于网格分割与双地图耦合的RGB-D SLAM算法。基于单应运动补偿与双向补偿光流法,根据几何连通性与深度图像聚类结果实现网格化运动分割,同时保证算法的快速性。利用静态区域内的特征点最小化重投影误差对相机进行位置估计。结合相机位姿、RGB-D图像、网格化运动分割图像,同时构建场景的稀疏点云地图和静态八叉树地图并进行耦合,在关键帧上使用基于网格分割和八叉树地图光线遍历的方法筛选静态地图点,更新稀疏点云地图,保障定位精度。公开数据集和实际动态场景中的实验结果都表明,本文算法能够有效提升室内动态场景中的相机位姿估计精度,实现场景静态八叉树地图的实时构建和更新。此外,本文算法能够实时运行在标准CPU硬件平台上,无需GPU等额外计算资源。  相似文献   

20.
同时定位与地图创建(Simultaneous Localization and Mapping,SLAM)作为自主移动机器人的基本功能,近年来已成为机器人领域的研究热点。然而现有视觉SLAM算法大多将外部场景作为静态假设,忽略了环境中运动物体对SLAM系统精度的影响,影响SLAM系统在实际环境中的应用。鉴于此,提出一种适用于动态场景的鲁棒视觉SLAM算法,以ORB-SLAM2框架RGB-D模式为基础,在前端添加一种基于几何约束的动态检测方法。首先对场景中的动态特征点利用一种几何约束方法进行粗滤除,然后将剩余的特征点作为改进随机抽样一致算法(Random Sample Consensus,RANSAC)的样本点估算稳定的基本矩阵,使用极线几何滤除场景中真正的动态特征点。最后对改进系统在TUM数据集上进行测试,结果表明改进系统可以有效提高ORB-SLAM2系统在高动态场景中的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号