首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
针对遮挡和杂乱光线导致的不同区域深度边缘模糊、边界伪影等问题,提出一种结合多任务轻量型卷积神经网络的单目深度图像估计方法。利用全景分割网络来辅助单幅图片的深度估计,选择MobileNetv2作为特征提取网络,解码器端融合以上两类任务进行相似性辅助决策。提出一种多任务融合模块,包括多尺度映射单元和多任务融合单元两部分,利用深度空洞卷积扩大不同感受野,融合多任务来优化深度图像的估计。此外编解码器结构之间添加跳跃连接实现不同层次的知识传递。在NYUdepth-v2数据集上的对比实验结果表明,该方法深度图估计结果更加清晰,并能有效去除深度图中的边界模糊,同时该网络在参数数量上相较大多数估计方法大幅度减少,准确率明显提升。  相似文献   

2.
申朕  崔超然  董桂鑫  余俊  黄瑾  尹义龙 《软件学报》2023,34(5):2494-2506
图像美学评价和情感分析任务旨在使计算机可以辨认人类由受到图像视觉刺激而产生的审美和情感反应.现有研究通常将它们当作两个相互独立的任务.但是,人类的美感与情感反应并不是孤立出现的;相反,在心理认知层面上,两种感受的出现应是相互关联和相互影响的.受此启发,采用深度多任务学习方法在统一的框架下处理图像美学评价和情感分析任务,深入探索两个任务间的内在关联.具体来说,提出一种自适应特征交互模块将两个单任务的基干网络进行关联,以完成图像美学评价和情感分析任务的联合预测.该模块中引入了一种特征动态交互机制,可以根据任务间的特征依赖关系自适应地决定任务间需要进行特征交互的程度.在多任务网络结构的参数更新过程中,根据美学评价与情感分析任务的学习复杂度和收敛速度等差异,提出一种任务间梯度平衡策略,以保证各个任务可以在联合预测的框架下平衡学习.此外,构建了一个大规模的图像美学情感联合数据集UAE.据已有研究,该数据集是首个同时包含美感和情感标签的图像集合.本模型代码以及UAE数据集已经公布在https://github.com/zhenshen-mla/Aesthetic-Emotion-Dataset.  相似文献   

3.
针对三维场景深度信息观测稀疏问题,提出一种融合彩色图像的多引导结构感知网络模型以补全稀疏深度.首先,利用三维平面法向量与场景梯度信息之间的映射关系,设计一种两分支主干网络框架,结合图像特征和几何特征进行深度预测,以充分提取空间位置信息的特征表示;然后,考虑到大范围场景下不同物体的结构差异性,基于网络通道注意力机制设计一种自适应感受野的结构感知模块,以对不同尺度的信息进行表征;最后,在网络采样的过程中,以不同尺寸图像为指导对预测子深度图进行滤波并修复物体的边缘细节.公开数据集上的实验结果表明,所设计的深度补全算法可以获得准确的稠密深度,同时通过两个下游感知任务进行深入评估,表明利用所提出方法能够有效提升其他感知任务的效果.  相似文献   

4.
张时进 《信息与电脑》2023,(11):195-197
由于现有机器人避障方法绕过障碍物不能及时达到原点,研究了基于深度强化学习的红外单目摄像头移动机器人避障方法。在神经网络中,设计方法通过卷积遍历整个图像区域进行特征学习,在池化层去除冗余特征信息,将图像输入障碍物检测网络检测,生成避障场景下的深度图,运用红外单目摄像头及视觉传感器采集图像中的信息进行训练,实现避障任务。实验结果表明,在不同行驶环境下,3组移动机器人绕过障碍物后均能准确到达原点(0,0)位置。  相似文献   

5.
温静  杨洁 《计算机工程》2023,49(2):222-230
现有单目深度估计算法主要从单幅图像中获取立体信息,存在相邻深度边缘细节模糊、明显的对象缺失问题。提出一种基于场景对象注意机制与加权深度图融合的单目深度估计算法。通过特征矩阵相乘的方式计算特征图任意两个位置之间的相似特征向量,以快速捕获长距离依赖关系,增强用于估计相似深度区域的上下文信息,从而解决自然场景中对象深度信息不完整的问题。基于多尺度特征图融合的优点,设计加权深度图融合模块,为具有不同深度信息的多视觉粒度的深度图赋予不同的权值并进行融合,融合后的深度图包含深度信息和丰富的场景对象信息,有效地解决细节模糊问题。在KITTI数据集上的实验结果表明,该算法对目标图像预估时σ<1.25的准确率为0.879,绝对相对误差、平方相对误差和对数均方根误差分别为0.110、0.765和0.185,预测得到的深度图具有更加完整的场景对象轮廓和精确的深度信息。  相似文献   

6.
针对传统单幅图像深度估计线索不足及深度估计精度不准的问题,提出一种基于非参数化采样的单幅图像深度估计方法。该方法利用非参数化的学习手段,将现有RGBD数据集中的深度信息迁移到输入图像中去。首先计算输入图像和现有RGBD数据集多尺度的高层次图像特征;然后,在现有RGBD数据集中,基于高层次的图像特征通过kNN最近邻搜索找到若干与输入图像特征最匹配的候选图像,并将这些候选图像对通过SIFT流形变到输入图像进行对齐。最后,对候选深度图进行插值和平滑等优化操作便可以得到最后的深度图。实验结果表明,与现有算法相比,该方法估计得到的深度图精度更高,对输入图像的整体结构保持得更好。  相似文献   

7.
获取周围环境中的语义信息是语义同时定位与建图(Simultaneous Localization and Mapping,SLAM)的重要任务,然而,采用语义分割或实例分割网络会影响系统的时间性能,采用目标检测方法又会损失一部分精度.因此,文中提出联合深度图聚类与目标检测的像素级分割算法,在保证实时性的前提下,提高当前语义SLAM系统的定位精度.首先,采用均值滤波算法对深度图的无效点进行修复,使深度信息更真实可靠.然后,分别对RGB图像和对应的深度图像进行目标检测和K-means聚类处理,结合两者结果,得出像素级的物体分割结果.最后,利用上述结果剔除周围环境中的动态点,建立完整、不含动态物体的语义地图.在TUM数据集和真实家居场景中分别进行深度图修复、像素级分割、估计相机轨迹与真实相机轨迹对比实验,结果表明,文中算法具有较好的实时性与鲁棒性.  相似文献   

8.
深度图被广泛应用于三维重建等领域,然而,由深度相机捕获的深度图会产生各种类型的失真,这使得从深度图中准确估计深度信息变得困难。针对低质量深度图中存在的各种类型的噪声,提出一种基于生成对抗网络的深度图像去噪算法。生成对抗网络由生成网络和判别网络组成。在生成网络中引入残差网络,避免模型退化问题,使用跳跃连接,加快网络训练速度同时保证图像细节的有效传递;在判别网络中使用步幅卷积代替池化层,减少模型的计算量;通过优化模型的训练,使得生成的深度图像更加清晰。实验结果表明,该算法能够生成效果更好的深度图,在主观视觉和客观评价方面均优于其他算法。  相似文献   

9.
由于遥感图像包含物体类别多样,单个语义类别标签无法全面地描述图像内容,而多标签图像分类任务更加具有挑战性.通过探索深度图卷积网络(GCN),解决了多标签遥感图像分类缺乏对标签语义信息相关性利用的问题,提出了一种新的基于图卷积的多标签遥感图像分类网络,它包含图像特征学习模块、基于图卷积网络的分类器学习模块和图像特征差异化模块三个部分.在公开多标签遥感数据集Planet和UCM上与相关模型进行对比,在多标签遥感图像分类任务上可以得到了较好的分类结果.该方法使用图卷积等模块将多标签图像分类方法应用到遥感领域,提高了模型分类能力,缩短了模型训练时间.  相似文献   

10.
从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。  相似文献   

11.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。  相似文献   

12.
目的 针对多视图立体(multi-view stereo,MVS)重建效果整体性不理想的问题,本文对MVS 3D重建中的特征提取模块和代价体正则化模块进行研究,提出一种基于注意力机制的端到端深度学习架构。方法 首先从输入的源图像和参考图像中提取深度特征,在每一级特征提取模块中均加入注意力层,以捕获深度推理任务的远程依赖关系;然后通过可微分单应性变换构建参考视锥的特征量,并构建代价体;最后利用多层U-Net体系结构正则化代价体,并通过回归结合参考图像边缘信息生成最终的细化深度图。结果 在DTU (Technical University of Denmark)数据集上进行测试,与现有的几种方法相比,本文方法相较于Colmap、Gipuma和Tola方法,整体性指标分别提高8.5%、13.1%和31.9%,完整性指标分别提高20.7%、41.6%和73.3%;相较于Camp、Furu和SurfaceNet方法,整体性指标分别提高24.8%、33%和29.8%,准确性指标分别提高39.8%、17.6%和1.3%,完整性指标分别提高9.7%、48.4%和58.3%;相较于PruMvsnet方法,整体性指标提高1.7%,准确性指标提高5.8%;相较于Mvsnet方法,整体性指标提高1.5%,完整性标提高7%。结论 在DTU数据集上的测试结果表明,本文提出的网络架构在整体性指标上得到了目前最优的结果,完整性和准确性指标得到较大提升,3D重建质量更好。  相似文献   

13.
Generating large-scale and high-quality 3D scene reconstruction from monocular images is an essential technical foundation in augmented reality and robotics. However, the apparent shortcomings (e.g., scale ambiguity, dense depth estimation in texture-less areas) make applying monocular 3D reconstruction to real-world practice challenging. In this work, we combine the advantage of deep learning and multi-view geometry to propose RGB-Fusion, which effectively solves the inherent limitations of traditional monocular reconstruction. To eliminate the confinements of tracking accuracy imposed by the prediction deficiency of neural networks, we propose integrating the PnP (Perspective-n-Point) algorithm into the tracking module. We employ 3D ICP (Iterative Closest Point) matching and 2D feature matching to construct separate error terms and jointly optimize them, reducing the dependence on the accuracy of depth prediction and improving pose estimation accuracy. The approximate pose predicted by the neural network is employed as the initial optimization value to avoid the trapping of local minimums. We formulate a depth map refinement strategy based on the uncertainty of the depth value, which can naturally lead to a refined depth map. Through our method, low-uncertainty elements can significantly update the current depth value while avoiding high-uncertainty elements from adversely affecting depth estimation accuracy. Numerical qualitative and quantitative evaluation results of tracking, depth prediction, and 3D reconstruction show that RGB-Fusion exceeds most monocular 3D reconstruction systems.  相似文献   

14.
基于多尺度CNN-RNN的单图三维重建网络   总被引:1,自引:0,他引:1  
张冀  郑传哲 《计算机应用研究》2020,37(11):3487-3491
现有基于深度学习的三维重建算法主要从深度网络的单一层进行特征获取,二维图像特征提取不完整,造成三维重建效果不理想。为提高三维重建模型的精度及准确度,充分利用二维图像细节特征,有效转换为三维网络,提出一种基于多尺度CNN-RNN的单图三维重建网络。模型网络主要由三部分组成:二维编码器、转换器及三维编码器。模型借鉴高斯金字塔模型,构建多尺度网络,保留二维图像不同尺度上的特征值,通过RNN将其转换为三维特征。模型使用公共的ShapeNet数据集进行训练和测试,通过前后对比,发现使用多尺度特征提取的方法,模型具有更好的鲁棒性。与现有方法进行对比,本模型在飞机、柜子、汽车、显示器、灯、音响、沙发等模型的三维重建中拥有更好的重建效果。  相似文献   

15.
目前利用深度学习进行多视图深度估计的方法可以根据卷积类型可以大致分为两类.其中,基于2D卷积网络的模型预测计算速度快,但预测精度较低;基于3D卷积网络的模型预测精度高,却存在高硬件消耗.同时,多视图中相机外部参数的变化使得模型无法在物体边缘、遮挡或纹理较弱区域生成高精度预测结果.针对上述问题,提出了基于3D卷积的语义导...  相似文献   

16.
In a human–robot collaborative manufacturing application where a work object can be placed in an arbitrary position, there is a need to calibrate the actual position of the work object. This paper presents an approach for automatic work-object calibration in flexible robotic systems. The approach consists of two modules: a global positioning module based on fixed cameras mounted around robotic workspace, and a local positioning module based on the camera mounted on the robot arm. The aim of the global positioning is to detect the work object in the working area and roughly estimate its position, whereas the local positioning is to define an object frame according to the 3D position and orientation of the work object with higher accuracy. For object detection and localization, coded visual markers are utilized. For each object, several markers are used to increase the robustness and accuracy of the localization and calibration procedure. This approach can be used in robotic welding or assembly applications.  相似文献   

17.
目的 高效的肝肿瘤计算机断层扫描(computed tomography,CT)图像自动分割方法是临床实践的迫切需求,但由于肝肿瘤边界不清晰、体积相对较小且位置无规律,要求分割模型能够细致准确地发掘类间差异。对此,本文提出一种基于特征选择与残差融合的2D肝肿瘤分割模型,提高了2D模型在肝肿瘤分割任务中的表现。方法 该模型通过注意力机制对U-Net瓶颈特征及跳跃链接进行优化,为符合肝肿瘤分割任务特点优化传统注意力模块进,提出以全局特征压缩操作(global feature squeeze,GFS)为基础的瓶颈特征选择模块,即全局特征选择模块(feature selection module,FS)和邻近特征选择模块(neighbor feature selection module,NFS)。跳跃链接先通过空间注意力模块(spatial attention module,SAM)进行特征重标定,再通过空间特征残差融合(spatial feature residual fusion module,SFRF)模块解决前后空间特征的语义不匹配问题,在保持低复杂度的同时使特征高效表达。结果 在LiTS (liver tumor segmentation)公开数据集上进行组件消融测试并与当前方法进行对比测试,在肝脏及肝肿瘤分割任务中的平均Dice得分分别为96.2%和68.4%,与部分2.5D和3D模型的效果相当,比当前最佳的2D肝肿瘤分割模型平均Dice得分高0.8%。结论 提出的FSF-U-Net (feature selection and residual fusion U-Net)模型通过改进的注意力机制与优化U-Net模型结构的方法,使2D肝肿瘤分割的结果更加准确。  相似文献   

18.
介绍了一个基于嵌入式平台和Kinect传感器的同时定位与地图创建算法的设计与实现。Kinect传感器包括一个可见光彩色摄像头和一个利用结构光测量深度的红外CMOS摄像头。 算法利用ORB算子作为环境特征点的描述信息,并利用基于边沿的最近邻修复方法对深度图像进行修正以获得完整的深度信息。在此基础上,利用LSH方法进行特征点的匹配。实验结果表明,基于ORB特征的视觉SLAM算法具有较好的实用性和良好的定位精度,可以广泛应用于室内机器人的自主导航任务。  相似文献   

19.
In many data acquisition tasks, the placement of a real camera can vary significantly in complexity from one scene to another. Optimal camera positioning should be governed not only by least error sensitivity, but in addition to real-world practicalities given by various physical, financial and other types of constraints. It would be a laborious and costly task to model all these constraints if one were to rely solely on fully automatic algorithms to make the decision. In this work, we present a study using 2D and 3D visualization methods to assist in single camera positioning based on error sensitivity of reconstruction and other physical and financial constraints. We develop a collection of visual mappings that depict the composition of multiple error sensitivity fields that occur for a given camera position. Each camera position is then mapped to a 3D visualization that enables visual assessment of the camera configuration. We find that the combined 2D and 3D visualization effectively aids the estimation of camera placement without the need for extensive manual configuration through trial and error. Importantly, it still provides the user with sufficient flexibility to make dynamic decisions based on physical and financial constraints that can not be encoded easily in an algorithm. We demonstrate the utility of our system on two real-world applications namely snooker analysis and camera surveillance.  相似文献   

20.
This paper presents a novel approach for image‐based visual servoing (IBVS) of a robotic system by considering the constraints in the case when the camera intrinsic and extrinsic parameters are uncalibrated and the position parameters of the features in 3‐D space are unknown. Based on the model predictive control method, the robotic system's input and output constraints, such as visibility constraints and actuators limitations, can be explicitly taken into account. Most of the constrained IBVS controllers use the traditional image Jacobian matrix, the proposed IBVS scheme is developed by using the depth‐independent interaction matrix. The unknown parameters can appear linearly in the prediction model and they can be estimated by the identification algorithm effectively. In addition, the model predictive control determines the optimal control input and updates the estimated parameters together with the prediction model. The proposed approach can simultaneously handle system constraints, unknown camera parameters and depth parameters. Both the visual positioning and tracking tasks can be achieved desired performances. Simulation results based on a 2‐DOF planar robot manipulator for both the eye‐in‐hand and eye‐to‐hand camera configurations are used to demonstrate the effectiveness of the proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号