期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郭纪志刘凤连杨馨竹汪日伟《光电子．激光》2021,32(6):628-636

针对在摄像机视角、光照、气候、地貌等条件的大幅度变化或者存在快速移动物体的复杂场景下,视觉即时定位与地图构建(simultaneous localization and mapping,SLAM)的精确性和鲁棒性较低等问题,闭环检测作为解决SLAM位姿漂移的重要环节,提出了一种基于神经网络的闭环检测方法。该方法通过传感器获取视觉图像的数据,不同于传统方法的特征提取,采用改进三重约束损失函数训练Darknet提取图像特征,构造对应特征向量矩阵。由于Darknet借鉴了残差网络(resnet)的思想,在具有较深网络层数的同时,仍保持较高的准确率,减少了特征提取误差。经过自编码器方法对数据进行降维处理,通过余弦相似度计算,设定合理阈值,能够更快的得到闭环检测结果。最后通过在两个公开视觉SLAM闭环检测数据集,New College数据集和光照及角度变化更明显的City Centre数据集上进行实验,结果表明复杂环境下本文提出的方法比现有闭环检测方法,能够得到更高准确率和速率,更好满足了视觉SLAM系统对消除累计误差和实时性的要求。相似文献

2.

动态场景下基于视觉同时定位与地图构建技术的多层次语义地图构建方法

梅天灿秦宇晟杨宏高智李皓冉《电子与信息学报》2023,45(5):1737-1746

为提高视觉同时定位与地图构建(SLAM)技术的环境适应性和语义信息理解能力,该文提出一种可以在动态场景下实现多层次语义地图构建的视觉SLAM方案。首先利用被迫移动物体与动态目标间的空间位置关系,并结合目标检测网络和光流约束判断真正的动态目标,从而剔除动态特征点;其次提出一种基于超体素的快速点云分割方案,将基于静态区域构建的3维地图进行优化,构建了物体级的点云语义地图;同时构建的语义地图可以提供更高精度的训练数据样本,进一步用来提升目标检测网络性能。在TUM和ICL-NUIM数据集上的实验结果表明,该方法在定位精度上远优于目前主流的动态场景下的视觉SLAM方案,证明了该方法在高动态场景中具有较好的稳定性和鲁棒性;在建图精度和质量上,经过将重建的不同种类地图与各个现有方法进行比较,验证了提出的多层次语义地图构建的方法在静态和高动态场景中的有效性与适用性。相似文献

3.

基于深度学习的室内视觉位置识别技术

《信息技术》2019,(6):77-81

视觉位置识别技术通过将地点图像与数据库中的图像集进行匹配,根据配对图像标签中的位置信息得到定位结果。现有的视觉位置识别网络都是为了应对室外场景而构建和训练的,在室内场景中的识别性能较差。文中提出了一种基于深度学习的室内视觉位置识别卷积神经网络架构,并在室内场景识别数据集上对网络进行了训练,然后在本地室内数据集上对网络参数进行进一步的微调,较好地解决了室内环境中的位置识别问题。和现有的其它视觉位置识别网络相比,文中训练的网络在实际室内环境测试中最大有30%的识别精度提升。相似文献

4.

视觉SLAM在动态场景下的图像处理方法

下载免费PDF全文

游通飞孔令华刘文玉易定容殷江《红外技术》2021,43(10):960-967

SLAM一直是机器人领域的研究热点,近年来取得了万众瞩目的进步,但很少有SLAM算法考虑到动态场景的处理。针对视觉SLAM场景中动态目标的处理,提出一种在动态场景下的图像处理方法。将基于深度学习的语义分割算法引入到ORB_SLAM2方法中,对输入图像进行分类处理的同时剔除人身上的特征点。基于已经剔除特征点的图像进行位姿估计。在TUM数据集上与ORB_SLAM2进行对比,在动态场景下的绝对轨迹误差和相对路径误差精度提高了90%以上。在保证地图精度的前提下,改善了地图的适用性。相似文献

5.

动态环境下基于深度学习的视觉SLAM研究综述

罗元沈吉祥李方宇《半导体光电》2024,45(1):1-10

目前的同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)研究大多是基于静态场景的假设,而实际生活中动态物体是不可避免的。在视觉SLAM系统中加入深度学习,可以协同剔除场景中的动态物体,有效提升视觉SLAM在动态环境下的鲁棒性。文章首先介绍了动态环境下基于深度学习的视觉SLAM分类,然后详细介绍了基于目标检测、基于语义分割和基于实例分割的视觉SLAM,并对它们进行了分析比较。最后,结合近年来视觉SLAM的发展趋势,通过对动态环境下基于深度学习的视觉SLAM存在的主要问题进行分析,总结了未来可能的发展方向。相似文献

6.

基于特征符号化和Transformer的无参考图像质量评价方法

宋巍李嘉瑾刘晓晨刘智翔石少华《液晶与显示》2023,(3):356-367

基于深度学习的无参考图像质量评价方法目前存在语义关联性不足或模型训练要求高的问题，为此，本文提出了一种基于语义特征符号化和Transformer的无参考图像质量评价方法。首先使用深层卷积神经网络提取图像的高层语义特征；然后将语义特征映射成视觉特征符号，并基于Transformer自注意力机制对视觉特征符号之间的关系进行建模，提取图像的全局特征，同时使用浅层神经网络提取底层局部图像特征，捕捉图像低级失真信息；最后结合全局图像信息与局部图像信息，对图像质量进行预测。为了验证模型的精度和鲁棒性，以相关系数PLCC和SROCC作为评价指标，在5个主流的图像质量评价数据集和1个水下图像质量评价数据集上进行了实验，并将本文提出的方法与15种传统和基于深度学习的无参考图像质量评价方法进行了对比。实验结果表明，本文方法以较少的参数量（大约1.56 MB）在各类数据集上均取得了优越的性能，尤其在多重失真数据集LIVE-MD上将SROCC提升到了0.958，证明在复杂的失真情况下仍能准确评估图像质量，本文网络结构能满足实际应用场景。相似文献

7.

基于ORB词袋模型的SLAM回环检测研究

《信息通信》2017,(10)

即时定位与地图构建(SLAM)是解决移动机器人在未知非结构化环境中自主导航与控制的关键,一个完整的SLAM系统包括传感器数据处理、位姿估计、构建地图、回环检测四个部分。其中回环检测机制是解决移动机器人的闭环重定位,提高SLAM系统鲁棒性的重要环节。该研究提出一种基于ORB词袋模型的SLAM系统框架,通过研究与分析了使用FLANN算法选取关键帧与匹配帧间特征点,ORB特征描述子对检测速度的提高,通过k-means++算法对特征点进行训练生成含有视觉单词的词袋模型,使用高斯金字塔的直方图交叉核的SVM分类器,使用e PNP算法的增量式帧间位姿估计,回环检测重定位机制等环节,实现了单目视觉SLAM系统的初始化与位姿优化,实现了在丢帧状况下通过词袋模型进行重定位。最后通过搭建实验平台和标准数据集的测试得到的数据结果表明,基于ORB词袋模型的SLAM系统,具有良好的实时性,能够有效提高SLAM系统的重定位准确性,增强了系统的鲁棒性。相似文献

8.

基于空间语义对象混合学习的复杂图像场景自动分类方法研究

孙显付琨王宏琦《电子与信息学报》2011,33(2):347-354

场景分类是将多幅图像标记为不同语义类别的过程。该文针对现有方法对复杂图像场景分类性能欠佳的不足,提出一种新的基于空间语义对象混合学习的复杂图像场景分类方法。该方法以多尺度分割得到的图像对象而非整幅图像为主体进行产生式语义建模,统计各类有效特征挖掘对象的类别分布信息,并通过空间金字塔匹配,构建包含层次数据和语义信息的中间向量,弥补语义鸿沟的缺陷,训练中还结合判别式学习提高分类器的可信性。在实验数据集上的结果表明该方法具备较高的学习性能和分类精度,适用于多种类型和复杂内容图像的解译,具有较强的实用价值。相似文献

9.

基于改进SSD的特种车辆红外伪装检测方法

下载免费PDF全文

赵晓枫徐明扬王聃漂杨佳星张志利《红外与激光工程》2019,48(11):1104003-1104003(10)

在目标检测领域,基于深度学习的SSD目标检测网络同时具有实时性好和准确性高两大优点。由于特种车辆红外图像难以获取,以小轿车和公交车红外图像为研究对象,构建了红外图像Pascal VOC数据集,训练了SSD网络,并利用训练好的网络检测了红外目标图像。结果表明,红外目标的特征信息越多,检测精度越高,但红外图像中信息残缺的车辆存在漏检的问题。针对该问题,通过添加残缺窗口模块优化数据集结构,有效解决了车辆漏检问题,同时目标整体的检测准确率也明显提升。将改进数据集后的红外目标检测结果作为评价指标,能够较准确评估复杂背景下特种车辆红外隐身伪装效果。相似文献

10.

基于Gist特征与CNN的场景分类方法

梁雪琦《电视技术》2016,40(11):7-11

针对大多数场景分类方法只能学习浅层特征,忽略图像之间的相关结构信息,提出一种基于Gist特征与卷积神经网络结合的场景图像分类方法.其中Gist特征用于提取场景图像的全局特征,并将其作为深度学习模型的输入,通过逐层训练卷积神经网络,提取更高层次的特征,并用训练好的卷积神经网络进行分类.实验在O&T室外场景图像数据集和MNIST手写体数据集上考察了batchsize、卷积核对分类结果的影响,并与DBN,NN,SVM和CART作为分类器的分类结果进行比较,充分说明了本文方法的有效性. 相似文献

11.

Semantic loop closure detection based on graph matching in multi-objects scenes

《Journal of Visual Communication and Image Representation》2021

Robust loop-closure detection is essential for visual SLAM. Traditional methods often focus on the geometric and visual features in most scenes but ignore the semantic information provided by objects. Based on this consideration, we present a strategy that models the visual scene as semantic sub-graph by only preserving the semantic and geometric information from object detection. To align two sub-graphs efficiently, we use a sparse Kuhn–Munkres algorithm to speed up the search for correspondence among nodes. The shape similarity and the Euclidean distance between objects in the 3-D space are leveraged unitedly to measure the image similarity through graph matching. Furthermore, the proposed approach has been analyzed and compared with the state-of-the-art algorithms at several datasets as well as two indoor real scenes, where the results indicate that our semantic graph-based representation without extracting visual features is feasible for loop-closure detection at potential and competitive precision. 相似文献

12.

Multi-scale aware dual path network for face detection in resource-constrained edge computing environment

Qi QI Yingxin MA Jingyu WANG Haifeng SUN Jianxin LIAO 《通信学报》2005,41(8):165-174

Aiming at the problem that face detectors with complex deep neural structures are difficult to deploy in the resource-constrained edge computing environment,to reduce the resource consumption while maintain the accuracy in complex scenes such as multi-scale face changes,occlusion,blur,and illumination,SDPN(multi-scale aware dual path network) for face detection was proposed.The Face-ResNet (face residual neural network) was improved,and a dual path shallow feature extractor was used to understand the multi-scale information of the image through parallel branches.Then the deep and shallow feature fusion module,a combination of the underlying image information and the high-level semantic feature,was used in conjunction with the multi-scale awareness training strategy to supervise the multi-branch learning discriminating features.The experimental results show that SDPN can extract more diversified features,which effectively improve the accuracy and robustness of face detection while maintaining the efficiency of the model and low inference delay. 相似文献

13.

Detection of loop closure in visual SLAM:a stacked assorted auto-encoder based approach

罗元肖雨婷张毅曾念文《光电子快报》2021,17(6):354-360

The current mainstream methods of loop closure detection in visual simultaneous localization and mapping (SLAM) are based on bag-of-words (BoW). However, traditional BoW-based approaches are strongly affected by changes in the appearance of the scene, which leads to poor robustness and low precision. In order to improve the precision and robustness of loop closure detection, a novel approach based on stacked assorted auto-encoder (SAAE) is proposed. The traditional stacked auto-encoder is made up of multiple layers of the same autoencoder. Compared with the visual BoW model, although it can better extract the features of the scene image, the output feature dimension is high. The proposed SAAE is composed of multiple layers of denoising auto-encoder, convolutional auto-encoder and sparse auto-encoder, it uses denoising auto-encoder to improve the robustness of image features, convolutional auto-encoder to preserve the spatial information of the image, and sparse auto-encoder to reduce the dimensionality of image features. It is capable of extracting low to high dimensional features of the scene image and preserving the spatial local characteristics of the image, which makes the output features more robust. The performance of SAAE is evaluated by a comparison study using data from new college dataset and city centre dataset. The methodology proposed in this paper can effectively improve the precision and robustness of loop closure detection in visual SLAM. 相似文献

14.

基于注意力机制的多尺度全场景监控目标检测方法

张德祥王俊袁培成《电子与信息学报》2022,44(9):3249-3257

针对复杂城市监控场景中由于目标尺寸变化大、目标遮挡、天气影响等原因导致目标特征不明显的问题,该文提出一种基于注意力机制的多尺度全场景监控目标检测方法。该文设计了一种基于Yolov5s模型的多尺度检测网络结构,以提高网络对目标尺寸变化的适应性。同时,构建了基于注意力机制的特征提取模块,通过网络学习获得特征的通道级别权重,增强了目标特征,抑制了背景特征,提高了特征的网络提取能力。通过K-means聚类算法计算全场景监控数据集的初始锚框大小,加速模型收敛同时提升检测精度。在COCO数据集上,与基本网络相比,平均精度均值(mAP)提高了3.7%,mAP₅₀提升了4.7%,模型推理时间仅为3.8 ms。在整个场景监控数据集中,mAP₅₀达到89.6%,处理监控视频时为154 fps,满足监控现场的实时检测要求。相似文献

15.

融合注意力门控机制的大场景点云语义分割

王蕾朱芬芬李金萍刘华《激光与红外》2023,53(11):1785-1792

室外大场景激光点云语义分割已成为3D场景理解、环境感知的关键性技术,在自动驾驶、智能机器人和增强现实(AR)等领域应用广泛。然而大场景的激光点云具有多目标、几何结构复杂,不同地物尺度变化大等特点,使得在稀疏的小目标点云(例如行人、摩托车等)上的分割性能较低。针对上述问题,本文提出一种融合注意力门控机制的室外点云语义分割算法,设计由注意力机制和多尺度上下文特征融合组成的注意力门控单元,提高对激光点云细粒度特征的表达,降低随机降采样过程中点云几何结构特征丢失程度,从而增强了网络对弱小目标的特征获取能力;同时设计基于共享MLP的平均池化单元,进一步简化自注意力局部特征聚合模块,有效地加速网络收敛,能高效地实现大场景点云的语义分割。本文方法在自动驾驶场景室外激光点云数据集SemanticKITTI上的实验表明,与文献RandLA Net相比,收敛速度提升483,平均交并比(mIoU)由539提升至545,提高06,尤其是在小目标上交并比(IoU)均有明显提高,person类和motorcycle类的交并比分别提高08和54。相似文献

16.

基于多图神经网络协同学习的显著性物体检测方法

刘冰王甜甜高丽娜徐明珠付平《电子与信息学报》2023,45(7):2561-2570

目前基于深度卷积神经网络的显著性物体检测方法难以在非欧氏空间不规则结构数据中应用,在复杂视觉场景中易造成显著物体边缘及结构等高频信息损失,影响检测性能。为此,该文面向显著性物体检测任务提出一种端到端的多图神经网络协同学习框架,实现显著性边缘特征与显著性区域特征协同学习的过程。在该学习框架中,该文构造了一种动态信息增强图卷积算子,通过增强不同图节点之间和同一图节点内不同通道之间的信息传递,捕获非欧氏空间全局上下文结构信息,完成显著性边缘信息与显著性区域信息的充分挖掘;进一步地,通过引入注意力感知融合模块,实现显著性边缘信息与显著性区域信息的互补融合,为两种信息挖掘过程提供互补线索。最后,通过显式编码显著性边缘信息,指导显著性区域的特征学习,从而更加精准地定位复杂场景下的显著性区域。在4个公开的基准测试数据集上的实验表明,所提方法优于目前主流的基于深度卷积神经网络的显著性物体检测方法,具有较强的鲁棒性和泛化能力。相似文献

17.

视觉惯性里程计异常视觉测量的检测与处理

下载免费PDF全文

朱涛马惠敏柴后青张胜虎《太赫兹科学与电子信息学报》2022,20(10):1038-1045

对于视觉惯性里程计(VIO),视觉遮挡、运动物体等复杂场景可能带来异常的视觉测量,导致系统定位精确度急剧下降。对此,提出了一种新的VIO异常视觉测量的检测和处理方法。通过选取检测指标、设置先验阈值和设计检测分类器,实现对异常视觉测量的检测与分类;提出多传感器融合策略和自适应误差加权算法,及时消除与实际运动不一致的异常视觉测量的影响;最后,将异常视觉测量检测和处理算法整合到基于关键帧的视觉惯性里程计(OKVIS)系统中,提出了视觉惯性里程计的异常检测和处理(EDS-VIO)系统框架。在复杂场景仿真数据集上的评测结果表明,EDS-VIO比OKVIS取得了更好的性能,定位误差均值从1.045 m下降到0.437 m。所提方法较好地提升了VIO在复杂场景中的定位精确度和鲁棒性。相似文献