期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘万军王俊恺曲海成《中国图象图形学报》2022,27(11):3331-3342

目的多视角立体重建方法是3维视觉技术中的重要部分。相较于传统方法,基于深度学习的方法大幅减少重建所需时间,同时在重建完整性上也有所提升。然而,现有方法的特征提取效果一般和代价体之间的关联性较差,使得重建结果仍有可以提升的空间。针对以上问题,本文提出了一种双U-Net特征提取的多尺度代价体信息共享的多视角立体重建网络模型。方法为了获得输入图像更加完整和准确的特征信息,设计了一个双U-Net特征提取模块,同时按照3个不同尺度构成由粗到细的级联结构输出特征;在代价体正则化阶段,设计了一个多尺度代价体信息共享的预处理模块,对小尺度代价体内的信息进行分离并传给下层代价体进行融合,由粗到细地进行深度图估计,使重建精度和完整度有大幅提升。结果实验在DTU(Technical University of Denmark)数据集上与CasMVSNet相比,在准确度误差、完整度误差和整体性误差3个主要指标上分别提升约16.2%,6.5%和11.5%,相较于其他基于深度学习的方法更是有大幅度提升,并且在其他几个次要指标上也均有不同程度的提升。结论提出的双U-Net提取多尺度代价体信息共享的多视角立体... 相似文献

2.

基于自适应聚合循环递归的稠密点云重建网络

王江安黄乐庞大为秦林珍梁温茜《图学学报》2024,(1):230-239

为了解决弱纹理重建难、资源消耗大和重建时间长等问题,提出了一种基于自适应聚合循环递归卷积的多阶段稠密点云重建网络,即A²R²-MVSNet(adaptive aggregation recurrent recursive multi view stereo net)。该方法首先引入一种基于多尺度循环递归残差的特征提取模块,聚合上下文语义信息,以解决弱纹理或无纹理区域特征提取难的问题。在代价体正则化部分,提出一种残差正则化模块,该模块在略微增加内存消耗的前提下,提高了3D CNN提取和聚合上下文语意的能力。实验结果表明,提出的方法在DTU数据集上的综合指标排名靠前,在重建细节上有着更好的体现,且在BlendedMVS数据集上生成了不错的深度图和点云结果,此外网络还在自采集的大规模高分辨率数据集上进行了泛化测试。归功于由粗到细的多阶段思想和我们提出的模块,网络在生成高准确性和完整性深度图的同时,还能进行高分辨率重建以适用于实际问题。相似文献

3.

基于多尺度特征提取的编码预处理算法

王嘉彤黄新彭林兴斌滕国伟《工业控制计算机》2024,(2):101-103

随着视频数据的爆炸式增长,视频的存储、传输压力不断加剧。为了进一步提高视频的压缩效率,设计了基于多尺度特征提取的编码预处理算法。该算法可以直接嵌入任何编码器之前,实现即插即用。该算法利用两阶段法,有效衡量了编码器的特点。同时,通过设计多尺度特征提取模块、通道注意力模块,有效提高了视频的压缩效率。实验结果表明,相较于H.266/VVC参考软件VTM10.0,提出的算法以峰值信噪比（PSNR）平均降低0.19 d B为代价,视频压缩效率平均提高19%。相似文献

4.

面向嵌入式平台多视图立体视觉深度感知

单兵胡益民张龙李加东《计算机系统应用》2023,32(5):105-111

针对目前基于神经网络的多视图立体视觉(multi-view stereo, MVS)深度估计算法存在参数量大、内存消耗严重,难以满足当下低算力嵌入式平台的需求.提出基于MVS2D极线注意力机制与MobileNetV3-Small的MVS深度感知网络(Mobile-MVS2D).该网络采用编码器-解码器的结构,使用MobileNetV3-Small网络进行编码特征提取,对源图像与参考图像之间不同特征层的尺度信息耦合采用极线注意力机制,解码阶段引入SE-Net与跳跃连接扩展解码特征细节,提升预测精度.实验结果表明,提出的模型在ScanNet数据集中在深度图的评价指标中展现较高的精度.在与视觉SLAM结合下可以展现出较准确的三维重建效果,具有较好的鲁棒性.在Jeston Xavier NX上推理精度为Float16尺寸为640×480的图片组,仅需0.17 s, GPU消耗仅需1 GB,能够满足低算力嵌入式平台的需求. 相似文献

5.

基于并行通道-空间注意力机制的腹部MRI影像多尺度超分辨率重建

樊帆高媛秦品乐王丽芳《计算机应用》2020,40(12):3624-3630

为了有效解决腹部磁共振成像（MRI）影像在超分辨率重建过程中因高频细节丢失引起的边界不明显、腹部器官显示不清晰以及单模型单尺度重建应用不方便等问题,提出了一种基于并行通道-空间注意力机制的多尺度超分辨率重建算法。首先,构造了并行通道-空间注意力残差块,通过空间注意力模块获取图像重点区域与高频信息的相关性,通过通道注意力模块获取图像各通道对关键信息响应程度的权重,同时拓宽网络的特征提取层以增加流入注意力模块的特征信息;此外,添加了权重归一化层,保证了网络的训练效率;最后,在网络末端应用多尺度上采样层,增加了网络的灵活性和可用性。实验结果表明,相较深层残差通道注意力超分辨率网络（RCAN）,所提算法在×2、×3、×4尺度下的峰值信噪比（PSNR）平均提高了0.68 dB。所提算法有效提升了图像的重建质量。相似文献

6.

基于并行通道-空间注意力机制的腹部MRI影像多尺度超分辨率重建

樊帆高媛秦品乐王丽芳《计算机应用》2005,40(12):3624-3630

为了有效解决腹部磁共振成像（MRI）影像在超分辨率重建过程中因高频细节丢失引起的边界不明显、腹部器官显示不清晰以及单模型单尺度重建应用不方便等问题，提出了一种基于并行通道-空间注意力机制的多尺度超分辨率重建算法。首先，构造了并行通道-空间注意力残差块，通过空间注意力模块获取图像重点区域与高频信息的相关性，通过通道注意力模块获取图像各通道对关键信息响应程度的权重，同时拓宽网络的特征提取层以增加流入注意力模块的特征信息；此外，添加了权重归一化层，保证了网络的训练效率；最后，在网络末端应用多尺度上采样层，增加了网络的灵活性和可用性。实验结果表明，相较深层残差通道注意力超分辨率网络（RCAN），所提算法在×2、×3、×4尺度下的峰值信噪比（PSNR）平均提高了0.68 dB。所提算法有效提升了图像的重建质量。相似文献

7.

多尺度特征复用混合注意力网络的图像重建

下载免费PDF全文

卢正浩刘丛《中国图象图形学报》2021,26(11):2645-2658

目的针对以往基于深度学习的图像超分辨率重建方法单纯加深网络、上采样信息损失和高频信息重建困难等问题,提出一种基于多尺度特征复用混合注意力网络模型用于图像的超分辨率重建。方法网络主要由预处理模块、多尺度特征复用混合注意力模块、上采样模块、补偿重建模块和重建模块5部分组成。第1部分是预处理模块,该模块使用一个卷积层来提取浅层特征和扩张特征图的通道数。第2部分是多尺度特征复用混合注意力模块,该模块加入了多路网路、混合注意力机制和长短跳连接,以此来进一步扩大特征图的感受野、提高多尺度特征的复用和加强高频信息的重建。第3部分是上采样模块,该模块使用亚像素方法将特征图上采样到目标图像尺寸。第4部分是补偿重建模块,该模块由卷积层和混合注意力机制组成,用来对经过上采样的特征图进行特征补偿和稳定模型训练。第5部分是重建模块,该模块由一个卷积层组成,用来将特征图的通道数恢复至原来数量,以此得到重建后的高分辨率图像。结果在同等规模模型的比较中,以峰值信噪比（peak signal-to-noise ratio,PSNR）和结构相似度（structural similarity index measure,SSIM）作为评价指标来评价算法性能,在Set5、Set14、BSD100（Berkeley segmentation dataset）和Urban100的基准测试集上进行测试。当缩放尺度因子为3时,各测试集上的PSNR/SSIM依次为34.40 dB/0.927 3,30.35 dB/0.842 7,29.11 dB/0.805 2和28.23 dB/0.854 0,相比其他模型有一定提升。结论量化和视觉的实验结果表明,本文模型重建得到的高分辨率图像不仅在重建边缘和纹理信息有很好的改善,而且在PSNR和SSIM客观评价指标上也有一定的提高。相似文献

8.

视差注意力的立体图像颜色校正方法

郑愈明范媛媛牛玉贞《小型微型计算机系统》2022,(3):611-620

立体图像左右视图间的差异影响了视觉任务对深度信息的重建.现有立体图像颜色校正方法在进行颜色校正时,颜色校正效果与整体时间效率不平衡.为了解决这个问题,本文提出一种端到端的基于视差注意力的立体图像颜色校正方法.该方法在一个卷积神经网络内同时进行立体图像对应关系获取和目标图像颜色校正.先采用共享参数的多尺度特征提取模块分别... 相似文献

9.

基于ECA-Net与多尺度结合的细粒度图像分类方法

毛志荣都云程肖诗斌施水才《计算机应用研究》2021,38(11):3484-3488

针对细粒度图像分类问题提出了一种有效的算法以实现端到端的细粒度图像分类.ECA-Net中ECA(efficient channel attention)模块是一种性能优势显著的通道注意力机制,将其与经典网络ResNet-50进行融合构成新的基础卷积神经网络ResEca;通过物体级图像定位模块与部件级图像生成模块生成物体级图像和部件级图像,并结合原始图像作为网络的输入,构建以ResEca为基础的三支路网络模型Tb-ResEca-Net(three branch of ResEca network).该算法在公有数据集CUB-200-2011、FGVC-aircraft和Stanford cars datasets上进行测试训练,分别取得了89.9％、95.1％和95.3％的准确率.实验结果表明,该算法相较于其他传统的细粒度分类算法具有较高的分类准确率以及较强的鲁棒性,是一种有效的细粒度图像分类方法. 相似文献

10.

多层次融合注意力网络的双目图像超分辨率重建

下载免费PDF全文

徐磊宋慧慧刘青山《中国图象图形学报》2023,28(4):1079-1090

目的随着深度卷积神经网络广泛应用于双目立体图像超分辨率重建任务,双目图像之间的信息融合成为近年来的研究热点。针对目前的双目图像超分辨重建算法对单幅图像的内部信息学习较少的问题,提出多层次融合注意力网络的双目图像超分辨率重建算法,在立体匹配的基础上学习图像内部的丰富信息。方法首先,利用特征提取模块从不同尺度和深度来获取左图和右图的低频特征。然后,将低频特征作为混合注意力模块的输入,此注意力模块先利用二阶通道非局部注意力模块学习每个图像内部的通道和空间特征,再采用视差注意力模块对左右特征图进行立体匹配。接着采用多层融合模块获取不同深度特征之间的相关信息,进一步指导产生高质量图像重建效果。再利用亚像素卷积对特征图进行上采样,并和低分辨率左图的放大特征相加得到重建特征。最后使用1层卷积得到重建后的高分辨率图像。结果本文算法采用Flickr1024数据集的800幅图像和60幅经过2倍下采样的Middlebury图像作为训练集,以峰值信噪比（peak signal-to-noise ratio,PSNR）和结构相似性（structural similarity,SSIM）作为指标。实验在3个... 相似文献

11.

基于自适应聚合与深度优化的三维重建算法

郑米培赵明富邢镔宋涛邢影《计算机应用研究》2023,40(5)

针对现有基于多视图的三维重建方法未充分考虑像素点在其余视图的可见性,从而导致重建完整度不足,且在弱纹理和遮挡区域重建困难等问题,提出了一种应用于高分辨率的三维重建网络。首先提出了一种引入可见性感知的自适应成本聚合方法用于成本量的聚合,通过网络获取视图中像素点的可见性,可以提高遮挡区域重建完整性;采用基于方差预测每像素视差范围,构建空间变化的深度假设面用于分阶段重建,在最后一阶段提出了基于卷积空间传播网络的深度图优化模块,以获得优化的深度图;最后采用改进深度图融合算法,结合所有视图的像素点与3D点的重投影误差进行一致性检查,得到密集点云。在DTU 数据集上与其他方法的定量定性比较结果表明,提出的方法可以重建出细节上表现更好的场景。相似文献

12.

Multi-view stereo in the Deep Learning Era: A comprehensive review

《Displays》2021

Multi-view stereo infers the 3D geometry from a set of images captured from several known positions and viewpoints. It is one of the most important components of 3D reconstruction. Recently, deep learning has been increasingly used to solve several 3D vision problems due to the predominating performance, including the multi-view stereo problem. This paper presents a comprehensive review, covering recent deep learning methods for multi-view stereo. These methods are mainly categorized into depth map based and volumetric based methods according to the 3D representation form, and representative methods are reviewed in detail. Specifically, the plane sweep based methods leveraging depth maps are presented following the stage of approaches, i.e. feature extraction, cost volume construction, cost volume regularization, depth map regression and post-processing. This review also summarizes several widely used datasets and their corresponding metrics for evaluation. Finally, several insightful observations and challenges are put forward enlightening future research directions. 相似文献

13.

基于多尺度特征递归卷积的稠密点云重建网络

下载免费PDF全文

王江安庞大为黄乐秦林珍《图学学报》2022,43(5):875-883

针对在三维重建任务中,由于弱纹理区域的光度一致性测量误差较大,使得传统的多视图立体算法难以处理的问题,提出了一种多尺度特征聚合的递归卷积网络(MARDC-MVSNet),用于弱纹理区域的稠密点云重建。为了使输入图像分辨率更高,该方法使用一个轻量级的多尺度聚合模块自适应地提取图像特征,以解决弱纹理甚至无纹理区域的问题。在代价体正则化方面,采用具有递归结构的分层处理网络代替传统的三维卷积神经网络(CNN),极大程度地降低了显存占用,同时实现高分辨率重建。在网络的末端添加一个深度残差网络模块,以原始图像为指导对正则化网络生成的初始深度图进行优化,使深度图表述更准确。实验结果表明,在DTU数据集上取得了优异的结果,该网络在拥有较高深度图估计精度的同时还节约了硬件资源,且能扩展到航拍影像的实际工程之中。相似文献

14.

3D遮挡模型引导的光场图像深度获取

下载免费PDF全文

吴迪张旭东张骏范之国孙锐《中国图象图形学报》2021,26(4):924-938

目的光场相机可以通过单次曝光同时从多个视角采样单个场景,在深度估计领域具有独特优势。消除遮挡的影响是光场深度估计的难点之一。现有方法基于2D场景模型检测各视角遮挡状态,但是遮挡取决于所采样场景的3D立体模型,仅利用2D模型无法精确检测,不精确的遮挡检测结果将降低后续深度估计精度。针对这一问题,提出了3D遮挡模型引导的光场图像深度获取方法。方法向2D模型中的不同物体之间添加前后景关系和深度差信息,得到场景的立体模型,之后在立体模型中根据光线的传输路径推断所有视角的遮挡情况并记录在遮挡图（occlusion map）中。在遮挡图引导下,在遮挡和非遮挡区域分别使用不同成本量进行深度估计。在遮挡区域,通过遮挡图屏蔽被遮挡视角,基于剩余视角的成像一致性计算深度;在非遮挡区域,根据该区域深度连续特性设计了新型离焦网格匹配成本量,相比传统成本量,该成本量能够感知更广范围的色彩纹理,以此估计更平滑的深度图。为了进一步提升深度估计的精度,根据遮挡检测和深度估计的依赖关系设计了基于最大期望（exception maximization,EM）算法的联合优化框架,在该框架下,遮挡图和深度图通过互相引导的方式相继提升彼此精度。结果实验结果表明,本文方法在大部分实验场景中,对于单遮挡、多遮挡和低对比度遮挡在遮挡检测和深度估计方面均能达到最优结果。均方误差（mean square error,MSE）对比次优结果平均降低约19.75%。结论针对遮挡场景的深度估计,通过理论分析和实验验证,表明3D遮挡模型相比传统2D遮挡模型在遮挡检测方面具有一定优越性,本文方法更适用于复杂遮挡场景的深度估计。相似文献

15.

AIFD Based 2D Image Registration to Multi-View Stereo Mapped 3D Models

Biao Zhao 《Neural Processing Letters》2018,48(3):1261-1279

相似文献

16.

深度学习单目深度估计研究进展 总被引：1，自引：0，他引：1

下载免费PDF全文

罗会兰周逸风《中国图象图形学报》2022,27(2):390-403

单目深度估计是从单幅图像中获取场景深度信息的重要技术,在智能汽车和机器人定位等领域应用广泛,具有重要的研究价值。随着深度学习技术的发展,涌现出许多基于深度学习的单目深度估计研究,单目深度估计性能也取得了很大进展。本文按照单目深度估计模型采用的训练数据的类型,从3个方面综述了近年来基于深度学习的单目深度估计方法:基于单图像训练的模型、基于多图像训练的模型和基于辅助信息优化训练的单目深度估计模型。同时,本文在综述了单目深度估计研究常用数据集和性能指标基础上,对经典的单目深度估计模型进行了性能比较分析。以单幅图像作为训练数据的模型具有网络结构简单的特点,但泛化性能较差。采用多图像训练的深度估计网络有更强的泛化性,但网络的参数量大、网络收敛速度慢、训练耗时长。引入辅助信息的深度估计网络的深度估计精度得到了进一步提升,但辅助信息的引入会造成网络结构复杂、收敛速度慢等问题。单目深度估计研究还存在许多的难题和挑战。利用多图像输入中包含的潜在信息和特定领域的约束信息,来提高单目深度估计的性能,逐渐成为了单目深度估计研究的趋势。相似文献

17.

RGB-Fusion: Monocular 3D reconstruction with learned depth prediction

《Displays》2021

Generating large-scale and high-quality 3D scene reconstruction from monocular images is an essential technical foundation in augmented reality and robotics. However, the apparent shortcomings (e.g., scale ambiguity, dense depth estimation in texture-less areas) make applying monocular 3D reconstruction to real-world practice challenging. In this work, we combine the advantage of deep learning and multi-view geometry to propose RGB-Fusion, which effectively solves the inherent limitations of traditional monocular reconstruction. To eliminate the confinements of tracking accuracy imposed by the prediction deficiency of neural networks, we propose integrating the PnP (Perspective-n-Point) algorithm into the tracking module. We employ 3D ICP (Iterative Closest Point) matching and 2D feature matching to construct separate error terms and jointly optimize them, reducing the dependence on the accuracy of depth prediction and improving pose estimation accuracy. The approximate pose predicted by the neural network is employed as the initial optimization value to avoid the trapping of local minimums. We formulate a depth map refinement strategy based on the uncertainty of the depth value, which can naturally lead to a refined depth map. Through our method, low-uncertainty elements can significantly update the current depth value while avoiding high-uncertainty elements from adversely affecting depth estimation accuracy. Numerical qualitative and quantitative evaluation results of tracking, depth prediction, and 3D reconstruction show that RGB-Fusion exceeds most monocular 3D reconstruction systems. 相似文献

18.

3D map reconstruction using a monocular camera for smart cities

Hu Yuxi Fu Taimeng Niu Guanchong Liu Zixiao Pun Man-On 《The Journal of supercomputing》2022,78(14):16512-16528

Large-scale high-resolution three-dimensional (3D) maps play a vital role in the development of smart cities. In this work, a novel deep learning-based multi-view-stereo method is proposed for reconstructing the 3D maps in large-scale urban environments by exploiting a monocular camera. Compared with other existing works, the proposed method can perform 3D depth estimation more efficiently in terms of computational complexity and graphics processing unit memory usage. As a result, the proposed method can practically perform depth estimation for each pixel before generating 3D maps for even large-scale scenes. Extensive experiments on the well-known DTU dataset and real-life data collected on our campus confirm the good performance of the proposed method.

相似文献

19.

基于卷积神经网络的视差图生成技术

朱俊鹏赵洪利杨海涛《计算机应用》2018,38(1):255-259

针对裸眼三维中视差图生成过程中存在的高成本、长耗时以及容易出现背景空洞的问题，提出了一种基于卷积神经网络（CNN）学习预测的算法。首先通过对数据集的训练学习，掌握数据集中的变化规律；然后对输入卷积神经网络中的左视图进行特征提取和预测，得到深度值连续的深度图像；其次将预测所得到的每一个深度图和原图进行卷积，将生成的多个立体图像对进行叠加，最终形成右视图。仿真结果表明：该算法的像素重构尺寸误差相比基于水平视差的三维显示算法和深度图像视点绘制的算法降低了12.82%和10.52%，且背景空洞、背景粘连等问题都得到了明显改善。实验结果表明，卷积神经网络能提高视差图生成的图像质量。相似文献