首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 214 毫秒
1.
目的 视频中的目标分割是计算机视觉领域的一个重要课题,有着极大的研究和应用价值。为此提出一种融合外观和运动特征的在线自动式目标分割方法。方法 首先,融合外观和运动特征进行目标点估计,结合上一帧的外观模型估计出当前帧的外观模型。其次,以超像素为节点构建马尔可夫随机场模型,结合外观模型和位置先验把分割问题转化为能量最小化问题,并通过Graph Cut进行优化求解。结果 最后,在两个数据集上与5种标准方法进行了对比分析,同时评估了本文方法的组成成分。本文算法在精度上至少比其他的目标分割算法提升了44.8%,且具有较高的分割效率。结论 本文通过融合外观与运动特征实现在线的目标分割,取得较好的分割结果,且该方法在复杂场景中也具有较好的鲁棒性。  相似文献   

2.
目的 基于视觉的同步定位与建图(visual-based simultaneous localization and mapping,vSLAM)是计算机视觉以及机器人领域中的关键技术,其通过对输入的图像进行处理分析来感知周围的3维环境以及进行自身的定位。现有的SLAM系统大多依赖静态世界假设,在真实环境中的动态物体会严重影响视觉SLAM系统的稳定运行。同时,场景中静止与运动部分往往和其语义有密切关系,因而可以借助场景中的语义信息来提升视觉SLAM系统在动态环境下的稳定性。为此,提出一种新的基于语义概率预测的面向动态场景的单目视觉SLAM算法。方法 结合语义分割的结果以及鲁棒性估计算法,通过对分割进行数据关联、状态检测,从概率的角度来表示观测的静止/运动状态,剔除动态物体上的观测对相机位姿估计的干扰,同时借助运动概率及时剔除失效的地图点,使系统在复杂动态的场景中依然能够稳定运行。结果 在本文构建的复杂动态场景数据集上,提出的方法在跟踪精度和完整度上都显著优于现有的单目视觉SLAM方法,而且在TUM-RGBD数据集中的多个高动态序列上也取得了更好的结果。此外,本文定性比较了动态场景下的建图质量以及AR(augmented reality)效果。结果表明,本文方法明显优于对比方法。结论 本文通过结合语义分割信息以及鲁棒性估计算法,对分割区域进行数据关联以及运动状态检测,以概率的形式表示2D观测的运动状态,同时及时剔除失效地图点,使相机位姿估计的精度以及建图质量有了明显提升,有效提高了单目视觉SLAM在高度动态环境中运行的鲁棒性。  相似文献   

3.
基于RGB-D深度相机的室内场景重建   总被引:1,自引:1,他引:0       下载免费PDF全文
目的 重建包含真实纹理的彩色场景3维模型是计算机视觉领域重要的研究课题之一,由于室内场景复杂、采样图像序列长且运动无规则,现有的3维重建算法存在重建尺度受限、局部细节重建效果差的等问题。方法 以RGBD-SLAM 算法为基础并提出了两方面的改进,一是将深度图中的平面信息加入帧间配准算法,提高了帧间配准算法的鲁棒性与精度;二是在截断符号距离函数(TSDF)体重建过程中,提出了一种指数权重函数,相比普通的权重函数能更好地减少相机深度畸变对重建的影响。结果 本文方法在相机姿态估计中带来了比RGBD-SLAM方法更好的结果,平均绝对路径误差减少1.3 cm,能取得到更好的重建效果。结论 本文方法有效地提高了相机姿态估计精度,可以应用于室内场景重建中。  相似文献   

4.
针对视觉同时定位与地图构建(SLAM)算法的视觉里程计在动态场景中受动态物体干扰致使帧间特征点误匹配,导致相机位姿估计误差大、定位精度低、鲁棒性差等问题,提出一种结合语义信息的视觉里程计动态特征点剔除方法。采用改进的YOLOv5目标检测网络为视觉里程计提供物体的语义信息,然后结合对极几何约束的运动一致性检测算法确定目标检测边界框中的动态物体,从而实现动态特征点的有效剔除,最后,仅利用静态特征完成位姿估计与定位。在TUM数据集上对比实验结果表明,其绝对轨迹误差(ATE)、平移和旋转相对位姿误差(RPE)的均方根误差(RMSE)值与ORB-SLAM2相比分别降低了97.71%、 95.10%和91.97%,验证了所提出的方法显著降低了动态场景下的位姿估计误差,提高了系统的准确性和鲁棒性。  相似文献   

5.
目的 动态场景图像中所存在的静态目标、背景纹理等静态噪声,以及背景运动、相机抖动等动态噪声,极易导致运动目标检测误检或漏检。针对这一问题,本文提出了一种基于运动显著性概率图的目标检测方法。方法 该方法首先在时间尺度上构建包含短期运动信息和长期运动信息的构建时间序列组;然后利用TFT(temporal Fourier transform)方法计算显著性值。基于此,得到条件运动显著性概率图。接着在全概率公式指导下得到运动显著性概率图,确定前景候选像素,突出运动目标的显著性,而对背景的显著性进行抑制;最后以此为基础,对像素的空间信息进行建模,进而检测运动目标。结果 对提出的方法在3种典型的动态场景中与9种运动目标检测方法进行了性能评价。3种典型的动态场景包括静态噪声场景、动态噪声场景及动静态噪声场景。实验结果表明,在静态噪声场景中,Fscore提高到92.91%,准确率提高到96.47%,假正率低至0.02%。在动态噪声场景中,Fscore提高至95.52%,准确率提高到95.15%,假正率低至0.002%。而在这两种场景中,召回率指标没有取得最好的性能的原因是,本文所提方法在较好的包络目标区域的同时,在部分情况下易将部分目标区域误判为背景区域的,尤其当目标区域较小时,这种误判的比率更为明显。但是,误判的比率一直维持在较低的水平,且召回率的指标也保持在较高的值,完全能够满足于实际应用的需要,不能抵消整体性能的显著提高。另外,在动静态噪声场景中,4种指标均取得了最优的性能。因此,本文方法能有效地消除静态目标干扰,抑制背景运动和相机抖动等动态噪声,准确地检测出视频序列中的运动目标。结论 本文方法可以更好地抑制静态背景噪声和由背景变化(水波荡漾、相机抖动等)引起的动态噪声,在复杂的噪声背景下准确地检测出运动目标,提高了运动目标检测的鲁棒性和普适性。  相似文献   

6.
动态场景图像序列中运动目标检测新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在动态场景图像序列中检测运动目标时,如何消除因摄影机运动带来的图像帧间全局运动的影响,以便分割图像中的静止背景和运动物体,是一个必须解决的难题。针对复杂背景下动态场景图像序列的特性,给出了一种新的基于场景图像参考点3D位置恢复的图像背景判别方法和运动目标检测方法。首先,介绍了图像序列的层次化运动模型以及基于它的运动分割方法;然后,利用估计出的投影矩阵计算序列图像中各运动层的参考点3D位置,根据同一景物在不同帧中参考点3D位置恢复值的变化特性,来判别静止背景对应的运动层和运动目标对应的运动层,从而分割出图像中的静止背景和运动目标;最后,给出了动态场景图像序列中运动目标检测的详细算法。实验结果表明,新算法较好地解决了在具有多组帧间全局运动参数的动态场景序列图像中检测运动目标的问题,较大地提高了运动目标跟踪算法的有效性和鲁棒性。  相似文献   

7.
提出一种用仿射参数模型来近似场景中摄像机的复杂运动,采用参数化的多分辨率估计方法鲁棒地估计出仿射参数;然后在当前帧与运动补偿后的帧之间求光流场,得到目标轮廓的初始分割;最后通过聚类和搜索填充算法分割出完整的目标.试验结果表明,该运动补偿算法能有效消除摄像机运动引起的背景运动,在摄像机运动情况下得到完整的目标.  相似文献   

8.
目的 卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法 本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果 实验结果表明,本文模型的mAP(mean average precision)为76.4%,相比于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型、D(&T loss)模型和FGFA(flow-guided feature aggregation)模型分别提高了28.9%、8.0%、0.6%和0.2%。结论 本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

9.
目的 由于光流估算的缺陷、噪声干扰以及现有运动注意力模型的局限性,导致运动注意力计算结果不能准确反映运动的显著性特征,制约了运动显著图的进一步应用。为提高运动注意力计算的准确性,提出一种基于时—空多尺度分析的运动注意力计算方法。方法 该方法根据视觉运动注意力来自于时—空运动反差的注意力形成机理构建运动注意力模型;通过时间尺度滤波去除噪声影响;鉴于视觉观测对尺度的依赖性,通过对视频帧的多尺度分解,在多个空间尺度进行运动注意力的计算,根据宏块像素值的相关系数大小对低尺度、中低尺度和原始尺度的运动注意力计算结果进行融合,得到最终的运动注意力显著图。结果 对多个视频测试序列的测试,测试结果表明,本文方法比同类方法更能真实有效地反映出视频场景中的运动显著性特征,大大提高了运动显著图的准确性。结论 为有效提高运动注意力计算不准确的问题,提出一种基于时—空多尺度分析的运动注意力计算方法,对于不同复杂视频运动场景,该方法能明显增强运动注意力计算的准确性,为视觉运动注意力的进一步应用奠定了良好基础。  相似文献   

10.
目的 人体姿态估计旨在识别和定位不同场景图像中的人体关节点并优化关节点定位精度。针对由于服装款式多样、背景干扰和着装姿态多变导致人体姿态估计精度较低的问题,本文以着装场景下时尚街拍图像为例,提出一种着装场景下双分支网络的人体姿态估计方法。方法 对输入图像进行人体检测,得到着装人体区域并分别输入姿态表示分支和着装部位分割分支。姿态表示分支通过在堆叠沙漏网络基础上增加多尺度损失和特征融合输出关节点得分图,解决服装款式多样以及复杂背景对关节点特征提取干扰问题,并基于姿态聚类定义姿态类别损失函数,解决着装姿态视角多变问题;着装部位分割分支通过连接残差网络的浅层特征与深层特征进行特征融合得到着装部位得分图。然后使用着装部位分割结果约束人体关节点定位,解决服装对关节点遮挡问题。最后通过姿态优化得到最终的人体姿态估计结果。结果 在构建的着装图像数据集上验证了本文方法。实验结果表明,姿态表示分支有效提高了人体关节点定位准确率,着装部位分割分支能有效避免着装场景中人体关节点误定位。在结合着装部位分割优化后,人体姿态估计精度提高至92.5%。结论 本文提出的人体姿态估计方法能够有效提高着装场景下的人体姿态估计精度,较好地满足虚拟试穿等实际应用需求。  相似文献   

11.
王浩  卢德玖  方宝富 《机器人》2022,44(4):418-430
目前视觉SLAM(同步定位与地图创建)方法在动态环境下易出现漏剔除动态物体的问题,影响相机位姿估计精度以及地图的可用性。为此,本文提出一种基于增强分割的RGB-D SLAM方法。首先结合实例分割网络与深度图像聚类的结果,判断当前帧是否出现漏分割现象,若出现则根据多帧信息对分割结果进行修补,同时,提取当前帧的Shi-To...  相似文献   

12.
In this paper, we describe a reconstruction method for multiple motion scenes, which are scenes containing multiple moving objects, from uncalibrated views. Assuming that the objects are moving with constant velocities, the method recovers the scene structure, the trajectories of the moving objects, the camera motion, and the camera intrinsic parameters (except skews) simultaneously. We focus on the case where the cameras have unknown and varying focal lengths while the other intrinsic parameters are known. The number of the moving objects is automatically detected without prior motion segmentation. The method is based on a unified geometrical representation of the static scene and the moving objects. It first performs a projective reconstruction using a bilinear factorization algorithm and, then, converts the projective solution to a Euclidean one by enforcing metric constraints. Experimental results on synthetic and real images are presented.  相似文献   

13.
Motion stereo using ego-motion complex logarithmic mapping   总被引:1,自引:0,他引:1  
Stereo information can be obtained using a moving camera. If a dynamic scene is acquired using a translating camera and the camera motion parameters are known, then the analysis of the scene may be facilitated by ego-motion complex logarithmic mapping (ECLM). It is shown in this paper that by using the complex logarithmic mapping (CLM) with respect to the focus of expansion, the depth of stationary components can be determined easily in the transformed image sequence. The proposed approach for depth recovery avoids the difficult problems of establishing correspondence and computation of optical flow, by using the ego-motion information. An added advantage of the CLM will be the invariances it offers. We report our experiments with synthetic data to show the sensitivity of the depth recovery, and show results of real scenes to demonstrate the efficacy of the proposed motion stereo in applications such as autonomous navigation.  相似文献   

14.
Motion segmentation in moving camera videos is a very challenging task because of the motion dependence between the camera and moving objects. Camera motion compensation is recognized as an effective approach. However, existing work depends on prior-knowledge on the camera motion and scene structure for model selection. This is not always available in practice. Moreover, the image plane motion suffers from depth variations, which leads to depth-dependent motion segmentation in 3D scenes. To solve these problems, this paper develops a prior-free dependent motion segmentation algorithm by introducing a modified Helmholtz-Hodge decomposition (HHD) based object-motion oriented map (OOM). By decomposing the image motion (optical flow) into a curl-free and a divergence-free component, all kinds of camera-induced image motions can be represented by these two components in an invariant way. HHD identifies the camera-induced image motion as one segment irrespective of depth variations with the help of OOM. To segment object motions from the scene, we deploy a novel spatio-temporal constrained quadtree labeling. Extensive experimental results on benchmarks demonstrate that our method improves the performance of the state-of-the-art by 10%~20% even over challenging scenes with complex background.  相似文献   

15.
针对压缩域视频的运动对象分割在复杂背景下分割精度不高的问题,提出一种基于最新压缩编码HEVC的运动分割方法。首先从HEVC压缩码流中提取块划分和相对应的运动矢量信息,并分别在帧内和帧间对运动矢量进行空域和时域的标签分类,然后利用MRF模型对标签场进行运动一致性估计,得到更精确的运动目标,最后输出MRF分割后形成的掩模信息。通过实验证明,该运动分割方法能够达到有效并可靠的分割效果,尤其对于多目标运动的视频分割效果优于其他比较的方法。  相似文献   

16.
We present a method for capturing the skeletal motions of humans using a sparse set of potentially moving cameras in an uncontrolled environment. Our approach is able to track multiple people even in front of cluttered and non‐static backgrounds, and unsynchronized cameras with varying image quality and frame rate. We completely rely on optical information and do not make use of additional sensor information (e.g. depth images or inertial sensors). Our algorithm simultaneously reconstructs the skeletal pose parameters of multiple performers and the motion of each camera. This is facilitated by a new energy functional that captures the alignment of the model and the camera positions with the input videos in an analytic way. The approach can be adopted in many practical applications to replace the complex and expensive motion capture studios with few consumer‐grade cameras even in uncontrolled outdoor scenes. We demonstrate this based on challenging multi‐view video sequences that are captured with unsynchronized and moving (e.g. mobile‐phone or GoPro) cameras.  相似文献   

17.
Recovery of ego-motion using region alignment   总被引:2,自引:0,他引:2  
A method for computing the 3D camera motion (the ego-motion) in a static scene is described, where initially a detected 2D motion between two frames is used to align corresponding image regions. We prove that such a 2D registration removes all effects of camera rotation, even for those image regions that remain misaligned. The resulting residual parallax displacement field between the two region-aligned images is an epipolar field centered at the FOE (Focus-of-Expansion). The 3D camera translation is recovered from the epipolar field. The 3D camera rotation is recovered from the computed 3D translation and the detected 2D motion. The decomposition of image motion into a 2D parametric motion and residual epipolar parallax displacements avoids many of the inherent ambiguities and instabilities associated with decomposing the image motion into its rotational and translational components, and hence makes the computation of ego-motion or 3D structure estimation more robust  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号