首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 233 毫秒
1.
单目深度估计是计算机视觉领域中的一个基本问题,面片匹配与平面正则化网络(P2Net)是现阶段最先进的无监督单目深度估计方法之一.由于P2Net中深度预测网络所采用的上采样方法为计算过程较为简单的最近邻插值算法,使得预测深度图的生成质量较差.因此,本文基于多种上采样算法构建出残差上采样结构来替换原网络中的上采样层,以获取更多特征信息,提高物体结构的完整性.在NYU-Depth V2数据集上的实验结果表明,基于反卷积算法、双线性插值算法和像素重组算法的改进P2Net网络相较原网络在均方根误差RMSE指标上分别降低了2.25%、2.73%和3.05%.本文的残差上采样结构提高了预测深度图的生成质量,降低了预测误差.  相似文献   

2.
为了提高二维复杂场景下多人姿态估计准确度和速度,提出了一种Mobile-YOLOv3模型与多尺度特征融合全卷积网络相结合的自顶向下多人姿态估计方法.利用深度可分离卷积改进YOLOv3网络以作为高效的人体目标检测器.针对网络特征下采样过程中上层高分辨率信息不断遗失问题,在经典U型网络结构中嵌入多尺度特征融合模块,从而使网络中的低尺度特征也包含高分辨率信息,并在特征融合模块中引入通道注意力机制,进一步突出多尺度融合特征图的关键通道信息.试验结果表明:相比于堆叠沙漏网络(Stacked Hourglass Network,SHN)和级联金字塔网络(Cascaded Pyramid Network,CPN),文中所提出的人体姿态估计算法在COCO数据集上的姿态估计平均准确率分别提高了4.7和3.7.  相似文献   

3.
生成对抗网络(GAN)算法在室外场景的深度估计任务中准确率较低,对于物体边界判断不准确。针对该问题,提出基于循环生成对抗网络(CycleGAN)的单目深度估计算法,将单幅图像映射到深度图像的过程拆分为两个子阶段。第一阶段中,网络学习图像的基本空间特征,得到粗糙尺度下的深度图像;第二阶段在前者的基础上,通过细节上的差异对比,优化深度图像,得到精细尺度下的深度图像。为了进一步提高深度估计的精度,在损失函数中引入了L1距离,让网络可以学习像素到像素的映射关系,避免出现较大的偏差与失真。在公开的室外场景数据集Make3D上的实验结果表明,与同类型算法相比,该算法的平均相对误差、均方根误差取得更好的效果。  相似文献   

4.
针对行人跌倒检测的应用场景复杂,原始YOLOv5的检测精度不高,特征融合不充分的问题,本文首先提出了一种新的特征金字塔(FPN)结构-自适应特征增强融合金字塔网络(AFEF-FPN)和特征增强融合模块(FFEM)来增加特征的表示以及融合深度.其次使用基于全局语义信息的上采样算子CARAFE代替Nearest Upsample来建模全局上采样信息,使用Alpha IoU Loss代替CIoU Loss来提高High IoU目标的损失和回归精度.最终本文网络YOLOv5(AFEF-FPN)在训练集上取得了98.62%mAP,在测试集上取得了96.21%mAP,相比于原始YOLOv5网络在训练集和测试集上分别提升了1.64%和2.86%.实验表明,本文网络在复杂场景下的目标检测效果优于原始YOLOv5及其他网络.  相似文献   

5.
针对海上复杂环境下深度学习方法跟踪速度慢和尺度变化问题,以及现有跟踪算法仅使用单层深度特征或手动融合多层特征的问题,提出一种基于卷积神经网络特征深度融合的多尺度相关滤波海上目标跟踪算法。以VGG-NET-16深度模型为基础,加入多层特征融合结构,实现深度卷积融合网络,用于特征提取,通过相关滤波算法构建定位滤波器,确定目标的中心位置,通过多尺度采样构建尺度滤波器,实现对目标的判断。实验结果表明,该算法可对海上移动目标实现多尺度的有效跟踪。  相似文献   

6.
目的 受光照变化、拍摄角度、物体数量和物体尺寸等因素的影响,室内场景下多目标检测容易出现准确性和实时性较低的问题。为解决此类问题,本文基于物体的彩色和深度图像组,提出了分步超像素聚合和多模态信息融合的目标识别检测方法。方法 在似物性采样(object proposal)阶段,依据人眼对显著性物体观察时先注意其色彩后判断其空间深度信息的理论,首先对图像进行超像素分割,然后结合颜色信息和深度信息对分割后的像素块分步进行多阈值尺度自适应超像素聚合,得到具有颜色和空间一致性的似物性区域;在物体识别阶段,为实现物体不同信息的充分表达,利用多核学习方法融合所提取的物体颜色、纹理、轮廓、深度多模态特征,将特征融合核输入支持向量机多分类机制中进行学习和分类检测。结果 实验在基于华盛顿大学标准RGB-D数据集和真实场景集上将本文方法与当前主流算法进行对比,得出本文方法整体的检测精度较当前主流算法提升4.7%,运行时间有了大幅度提升。其中分步超像素聚合方法在物体定位性能上优于当前主流似物性采样方法,并且在相同召回率下采样窗口数量约为其他算法的1/4;多信息融合在目标识别阶段优于单个特征和简单的颜色、深度特征融合方法。结论 结果表明在基于多特征的目标检测过程中本文方法能够有效利用物体彩色和深度信息进行目标定位和识别,对提高物体检测精度和检测效率具有重要作用。  相似文献   

7.
针对三维场景深度信息观测稀疏问题,提出一种融合彩色图像的多引导结构感知网络模型以补全稀疏深度.首先,利用三维平面法向量与场景梯度信息之间的映射关系,设计一种两分支主干网络框架,结合图像特征和几何特征进行深度预测,以充分提取空间位置信息的特征表示;然后,考虑到大范围场景下不同物体的结构差异性,基于网络通道注意力机制设计一种自适应感受野的结构感知模块,以对不同尺度的信息进行表征;最后,在网络采样的过程中,以不同尺寸图像为指导对预测子深度图进行滤波并修复物体的边缘细节.公开数据集上的实验结果表明,所设计的深度补全算法可以获得准确的稠密深度,同时通过两个下游感知任务进行深入评估,表明利用所提出方法能够有效提升其他感知任务的效果.  相似文献   

8.
伪装物体检测通过模仿人类的视觉检测机理,实现在复杂场景下对伪装物体的定位与识别.然而,多数伪装物体检测方法在遇到相似外形目标干扰时,仅通过目标的局部表观特征无法准确识别伪装目标.为此,本文提出一种渐进聚合多尺度场景上下文特征的伪装物体检测网络,通过聚合多阶段语义增强的场景上下文特征来实现准确的伪装物体判别.具体来说,所提网络主要包含两个创新设计:U型上下文感知模块和跨级特征聚合模块.前者旨在感知复杂场景中物体的细节轮廓、纹理特征和颜色变化等丰富的局部-全局场景上下文信息.后者则结合坐标方向的注意力和多层级残差渐进特征聚合机制,逐级渐进聚合相邻层级之间的互补特征,实现对伪装物体全局语义的强化和局部细节的补充.本文方法在CHAMELEON、CAMO-Test、COD10K-Test和NC4K等4个非常具有挑战性的基准数据集上进行了评测.评测结果表明,本文方法相比于最新方法达到了领先的性能.  相似文献   

9.
目的 杂乱场景下的物体抓取姿态检测是智能机器人的一项基本技能。尽管六自由度抓取学习取得了进展,但先前的方法在采样和学习中忽略了物体尺寸差异,导致在小物体上抓取表现较差。方法 提出了一种物体掩码辅助采样方法,在所有物体上采样相同的点以平衡抓取分布,解决了采样点分布不均匀问题。此外,学习时采用多尺度学习策略,在物体部分点云上使用多尺度圆柱分组以提升局部几何表示能力,解决了由物体尺度差异导致的学习抓取操作参数困难问题。通过设计一个端到端的抓取网络,嵌入了提出的采样和学习方法,能够有效提升物体抓取检测性能。结果 在大型基准数据集GraspNet-1Billion上进行评估,本文方法取得对比方法中的最优性能,其中在小物体上的抓取指标平均提升了7%,大量的真实机器人实验也表明该方法具有抓取未知物体的良好泛化性能。结论 本文聚焦于小物体上的抓取,提出了一种掩码辅助采样方法嵌入到提出的端到端学习网络中,并引入了多尺度分组学习策略提高物体的局部几何表示,能够有效提升在小尺寸物体上的抓取质量,并在所有物体上的抓取评估结果都超过了对比方法。  相似文献   

10.
【目的】重采样是掩盖图像篡改痕迹的重要手段,为了更加精确地实现对重采样缩放参数的检测,验证图像信息的真实性,本文提出一种基于多尺度前馈融合结构的重采样因子估计算法。【方法】在预处理层中,首先使用两个线性高通滤波器得到重采样图像的残差特征,抑制图像内容带来的影响,放大区域内像素之间的关联性,其次利用4个低阶高通滤波器在不同方向上强化像素的梯度特征,该算法的主体结构为卷积神经网络,在网络的不同层级处提取出多尺度重采样分类痕迹,结合注意力机制,形成多尺度残差融合模块(Multiscale Residual Fusion Module, MRFM),补偿卷积过程中重采样信息的丢失,标定特征信息传递过程中的有效性,同时去除信息冗余,加速网络收敛。【结果】实验表明,本文所提算法的网络增益由预处理层和多尺度残差融合模块共同决定,准确性明显高于对比的其他算法,尤其在强噪声的干扰下,本文所提算法具有明显的优势。  相似文献   

11.
目的 6D姿态估计是3D目标识别及重建中的一个重要问题。由于很多物体表面光滑、无纹理,特征难以提取,导致检测难度大。很多算法依赖后处理过程提高姿态估计精度,导致算法速度降低。针对以上问题,本文提出一种基于热力图的6D物体姿态估计算法。方法 首先,采用分割掩码避免遮挡造成的热力图污染导致的特征点预测准确率下降问题。其次,基于漏斗网络架构,无需后处理过程,保证算法具有高效性能。在物体检测阶段,采用一个分割网络结构,使用速度较快的YOLOv3(you only look once v3)作为网络骨架,目的在于预测目标物体掩码分割图,从而减少其他不相关物体通过遮挡带来的影响。为了提高掩码的准确度,增加反卷积层提高特征层的分辨率并对它们进行融合。然后,针对关键点采用漏斗网络进行特征点预测,避免残差网络模块由于局部特征丢失导致的关键点检测准确率下降问题。最后,对检测得到的关键点进行位姿计算,通过PnP (perspective-n-point)算法恢复物体的6D姿态。结果 在有挑战的Linemod数据集上进行实验。实验结果表明,本文算法的3D误差准确性为82.7%,与热力图方法相比提高了10%;2D投影准确性为98.9%,比主流算法提高了4%;同时达到了15帧/s的检测速度。结论 本文提出的基于掩码和关键点检测算法不仅有效提高了6D姿态估计准确性,而且可以维持高效的检测速度。  相似文献   

12.
现有基于深度学习的显著性检测算法主要针对二维RGB图像设计,未能利用场景图像的三维视觉信息,而当前光场显著性检测方法则多数基于手工设计,特征表示能力不足,导致上述方法在各种挑战性自然场景图像上的检测效果不理想。提出一种基于卷积神经网络的多模态多级特征精炼与融合网络算法,利用光场图像丰富的视觉信息,实现面向四维光场图像的精准显著性检测。为充分挖掘三维视觉信息,设计2个并行的子网络分别处理全聚焦图像和深度图像。在此基础上,构建跨模态特征聚合模块实现对全聚焦图像、焦堆栈序列和深度图3个模态的跨模态多级视觉特征聚合,以更有效地突出场景中的显著性目标对象。在DUTLF-FS和HFUT-Lytro光场基准数据集上进行实验对比,结果表明,该算法在5个权威评估度量指标上均优于MOLF、AFNet、DMRA等主流显著性目标检测算法。  相似文献   

13.
王程  张骏  高隽 《中国图象图形学报》2020,25(12):2630-2646
目的 光场相机一次成像可以同时获取场景中光线的空间和角度信息,为深度估计提供了条件。然而,光场图像场景中出现高光现象使得深度估计变得困难。为了提高算法处理高光问题的可靠性,本文提出了一种基于光场图像多视角上下文信息的抗高光深度估计方法。方法 本文利用光场子孔径图像的多视角特性,创建多视角输入支路,获取不同视角下图像的特征信息;利用空洞卷积增大网络感受野,获取更大范围的图像上下文信息,通过同一深度平面未发生高光的区域的深度信息,进而恢复高光区域深度信息。同时,本文设计了一种新型的多尺度特征融合方法,串联多膨胀率空洞卷积特征与多卷积核普通卷积特征,进一步提高了估计结果的精度和平滑度。结果 实验在3个数据集上与最新的4种方法进行了比较。实验结果表明,本文方法整体深度估计性能较好,在4D light field benchmark合成数据集上,相比于性能第2的模型,均方误差(mean square error,MSE)降低了20.24%,坏像素率(bad pixel,BP)降低了2.62%,峰值信噪比(peak signal-to-noise ratio,PSNR)提高了4.96%。同时,通过对CVIA (computer vision and image analysis) Konstanz specular dataset合成数据集和Lytro Illum拍摄的真实场景数据集的定性分析,验证了本文算法的有效性和可靠性。消融实验结果表明多尺度特征融合方法改善了深度估计在高光区域的效果。结论 本文提出的深度估计模型能够有效估计图像深度信息。特别地,高光区域深度信息恢复精度高、物体边缘区域平滑,能够较好地保存图像细节信息。  相似文献   

14.
以多视图几何原理为基础,有效结合卷积神经网络进行图像深度估计和匹配筛选,构造无监督单目视觉里程计方法.针对主流深度估计网络易丢失图像浅层特征的问题,构造一种基于改进密集模块的深度估计网络,有效地聚合浅层特征,提升图像深度估计精度.里程计利用深度估计网络精确预测单目图像深度,利用光流网络获得双向光流,通过前后光流一致性原则筛选高质量匹配.利用多视图几何原理和优化方式求解获得初始位姿和计算深度,并通过特定的尺度对齐原则得到全局尺度一致的6自由度位姿.同时,为了提高网络对场景细节和弱纹理区域的学习能力,将基于特征图合成的特征度量损失结合到网络损失函数中.在KITTI Odometry数据集上进行实验验证,不同阈值下的深度估计取得了85.9%、95.8%、97.2%的准确率.在09和10序列上进行里程计评估,绝对轨迹误差在0.007 m.实验结果验证了所提出方法的有效性和准确性,表明其在深度估计和视觉里程计任务上的性能优于现有方法.  相似文献   

15.
Depth estimation using monocular images is highly challenging but is a considerable topic in understanding scene structure. This paper proposed a multi-level convolutional neural network (CNN), in which the low-level and high-level features were well-integrated in order to estimate the depth values from a single image. To estimate the depth values, a fully convolutional architecture which used a structure improvement strategy was applied to correct the depth values using low-level features of the shallow layers. A hierarchical context aggregation scheme was proposed according to the dilated convolutional operators that integrate the global and local contexts in a progressive way to recover the local details. In addition, a rectifying block was used to subtract the existed fitting residuals of integrated multi-level features. In the second level, a modifier network was provided to improve the estimated depth values, in particular in the object boundaries. It is possible to determine the objective function in the modifier networks by considering the geometrical features directing the network to achieve the best results. The proposed framework was evaluated using the computer vision (Make3D, NYU, and SUN datasets) and remote sensing (Vaihingen and Potsdam datasets) datasets that specified the significant performance of the proposed framework.  相似文献   

16.
考虑到结直肠息肉图像中病灶区域和周围粘液存在对比度低、边界模糊和形状不规则等复杂特性,导致现有大部分算法无法实现高精准的分割结直肠息肉。鉴于以上难点,提出一种融合PVTv2和多尺度边界聚合的结直肠息肉分割算法。首先,利用PVTv2逐层提取肠息肉图像中的病灶特征,解决传统卷积神经网络对病灶区域特征提取能力不足的问题;然后,针对网络对复杂病灶区域的空间特征信息表征能力不强的问题,在网络跳跃连接处构建多尺度上下文空间感知模块;其次,设计多尺度挤压适配融合模块聚合不同尺度的特征信息,以减少各个尺度特征的语义差异;最后,为进一步加强边缘细节特征的识别能力,创造性构造残差轴向双边界细化模块。该算法在Kvasir-SEG和CVC-ClinicDB数据集上进行大量实验验证,其相似性系数分别为93.29%和94.52%,平均交并比分别为88.36%和89.88%。实验结果表明,对于复杂的病灶区域以及病灶边界模糊的情况,所提算法在分割精度上均有较大的提升。  相似文献   

17.

This paper proposes the object depth estimation in real-time, using only a monocular camera in an onboard computer with a low-cost GPU. Our algorithm estimates scene depth from a sparse feature-based visual odometry algorithm and detects/tracks objects’ bounding box by utilizing the existing object detection algorithm in parallel. Both algorithms share their results, i.e., feature, motion, and bounding boxes, to handle static and dynamic objects in the scene. We validate the scene depth accuracy of sparse features with KITTI and its ground-truth depth map made from LiDAR observations quantitatively, and the depth of detected object with the Hyundai driving datasets and satellite maps qualitatively. We compare the depth map of our algorithm with the result of (un-) supervised monocular depth estimation algorithms. The validation shows that our performance is comparable to that of monocular depth estimation algorithms which train depth indirectly (or directly) from stereo image pairs (or depth image), and better than that of algorithms trained with monocular images only, in terms of the error and the accuracy. Also, we confirm that our computational load is much lighter than the learning-based methods, while showing comparable performance.

  相似文献   

18.
Detecting salient objects in challenging images attracts increasing attention as many applications require more robust method to deal with complex images from the Internet. Prior methods produce poor saliency maps in challenging cases mainly due to the complex patterns in the background and internal color edges in the foreground. The former problem may introduce noises into saliency maps and the later forms the difficulty in determining object boundaries. Observing that depth map can supply layering information and more reliable boundary, we improve salient object detection by integrating two features: color information and depth information which are calculated from stereo images. The two features collaborate in a two-stage framework. In the object location stage, depth mainly helps to produce a noise-filtered salient patch, which indicates the location of the object. In the object boundary inference stage, boundary information is encoded in a graph using both depth and color information, and then we employ the random walk to infer more reliable boundaries and obtain the final saliency map. We also build a data set containing 100+ stereo pairs to test the effectiveness of our method. Experiments show that our depth-plus-color based method significantly improves salient object detection compared with previous color-based methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号