首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
针对现有单阶段目标检测算法锚点框特征表达不足影响检测精度的问题,提出了一种增强锚点框特征表达的算法,其包含注意力机制模块和部件感知模块.首先,注意力机制模块根据各个锚点框的不同属性自适应地提供不同的特征表达.然后,部件感知模块准确地提取各个锚点框内部的判别性部件特征以作为各个锚点框进行预测所需的特有特征.将所提设计与现有SSD算法结合并在多个公开的目标检测数据集上进行实验,结果表明,所提算法能够显著提高单阶段目标检测算法的精度并维持实时运行速度(14 ms);进一步地,在扩展实验上的结果表明,所提算法也能够改善生成的区域建议框的召回率及两阶段目标检测算法的精度.  相似文献   

2.
针对当前三维目标检测中存在的数据降采样难、特征提取不充分、感受野有限、候选包围盒回归质量不高等问题,基于3DSSD三维目标检测算法,提出了一种基于原始点云、单阶段、无锚框的三维目标检测算法RPV-SSD(random point voxel single stage object detector),该算法由随机体素采样层、3D稀疏卷积层、特征聚合层、候选点生成层、区域建议网络层共五个部分组成,主要通过聚合随机体素采样的关键点逐点特征、体素稀疏卷积特征、鸟瞰图特征,进而实现对物体类别、3D包围盒以及物体朝向的预测。在KITTI数据集上的实验表明,该算法整体表现良好,不仅能够命中真值标签中的目标并且回归较好的包围盒,还能够从物体的不完整点云推测出物体的类别及其完整形状,提高目标检测性能。  相似文献   

3.
针对现有三维目标检测算法对存在遮挡及距离较远目标检测效果差的问题,以基于点云的三维目标检测算法(3D object proposal generation and detection from point cloud, PointRCNN)为基础,对网络进行改进,提高三维目标检测精度。对区域生成网络(region proposal network, RPN)获取的提议区域(region of interest, ROI)体素化处理,同时构建不同尺度的区域金字塔来捕获更加广泛的兴趣点;加入点云Transformer模块来增强对网格中心点局部特征的学习;在网络中加入球查询半径预测模块,使得模型可以根据点云密度自适应调整球查询的范围。最后,对所提算法的有效性进行了试验验证,在KITTI数据集下对模型的性能进行评估测试,同时设计相应的消融试验验证模型中各模块的有效性。  相似文献   

4.
三维人体目标检测在智能安防、机器人、自动驾驶等领域具有重要的应用价值。目前基于雷达与图像数据融合的三维人体目标检测方法主要采用两阶段网络结构,分别完成目标概率较高的候选边界框的选取以及对目标候选框进行分类和边界框回归。目标候选边界框的预先选取使两阶段网络结构的检测准确率和定位精度得到提高,但相对复杂的网络结构导致运算速度受到限制,难以满足实时性要求较高的应用场景。针对以上问题,研究了一种基于改进型RetinaNet的三维人体目标实时检测方法,将主干网络与特征金字塔网络结合用于雷达点云和图像特征的提取,并将两者融合的特征锚框输入到功能网络从而输出三维边界框和目标类别信息。该方法采用单阶段网络结构直接回归目标的类别概率和位置坐标值,并且通过引入聚焦损失函数解决单阶段网络训练过程中存在的正负样本不平衡问题。在KITTI数据集上进行的实验表明,本文方法在三维人体目标检测的平均精度和耗时方面均优于对比算法,可有效实现目标检测的准确性和实时性之间的平衡。  相似文献   

5.
于敏  屈丹  司念文 《计算机工程》2022,48(8):249-257
针对经典一阶段目标检测算法RetinaNet难以充分提取不同阶段特征、边界框回归不够准确等问题,提出一个面向目标检测的改进型RetinaNet算法。在特征提取模块中加入多光谱通道注意力,将输入特征中的频率分量合并到注意力处理中,从而捕获特征原有的丰富信息。将多尺度特征融合模块添加到特征提取模块,多尺度特征融合模块包括1个路径聚合模块和1个特征融合操作,路径聚合模块通过搭建自底向上的路径,利用较浅特征层上精确的定位信号增强整个特征金字塔的信息流,特征融合操作通过融合来自每个阶段的特征信息优化多阶段特征的融合效果。此外,在边界框回归过程中引入完全交并比损失函数,从边界框的重叠面积、中心点距离和长宽比这3个重要的几何因素出发,提升回归过程的收敛速度与准确性。在MS COCO数据集和PASCAL VOC数据集上的实验结果表明,与RetinaNet算法相比,改进型RetinaNet算法在2个数据集上的平均精度分别提高了2.1、1.1个百分点,尤其对于MS COCO数据集中较大目标的检测,检测精度的提升效果更加显著。  相似文献   

6.
针对驾驶场景中目标检测卷积神经网络模型检测精度较低的问题,提出一种基于改进RefineDet网络结构的多尺度特征融合目标检测方法。在RefineDet网络结构中嵌入LFIP(Light-weight Featurized Image Pyramid,轻量级特征化的图像金字塔)网络,将LFIP网络生成的多尺度特征图与RefineDet中的ARM(Anchor Refinement Module,锚点框修正模块)输出的主特征图相融合,提升特征层中锚点框初步分类和回归的输出效果,为ODM(Object Detection Module,目标检测模块)模块提供修正的锚点框以便于进一步回归和多类别预测;在RefineDet网络结构中的ODM之后嵌入多分支结构RFB(Receptive Field Block,感受野模块),在检测任务中获得不同尺度的感受野以改善主干网络中提取的特征。将模型中的激活函数替换为带有可学习参数的非线性激活函数PReLU(Parametric Rectified Linear Unit,参数化修正线性单元),加快网络模型的收敛速度;将RefineDet的边界框回归损失函数替换为排斥力损失函数Repulsion Loss,使目标检测中的某预测框更靠近其对应的目标框,并使该预测框远离附近的目标框及预测框,可以提升遮挡情况下目标检测的精度;构建驾驶视觉下的目标检测数据集,共计48 260张,其中38 608张作为训练集,9 652张作为测试集,并在主流的GPU硬件平台进行验证。该方法的mAP为85.59%,优于RefineDet及其他改进算法;FPS为41.7 frame/s,满足驾驶场景目标检测的应用要求。实验结果表明,该方法在检测速度略微下降的情况,能够较好地提升驾驶视觉下的目标检测的精确度,并能够一定程度上解决驾驶视觉下的遮挡目标检测和小目标检测的问题。  相似文献   

7.
针对当前遥感影像背景复杂、目标尺度小等情况导致的检测精度偏低的问题,基于FCOS网络提出了一种结合位置注意力和感受野增强的遥感影像目标检测算法PARF-FCOS;该算法构造了一种位置注意力模块,并利用该模块对特征提取网络进行改进,增强网络对目标信息的提取能力;在特征融合阶段使用感受野模块(RFB, receptive field block)增强浅层特征图,利用目标上下文信息进行辅助判断,提升网络对小尺度目标的检测能力;在训练过程中,引入距离交并比损失(DIoU loss,distance intersection over union loss)进行边界框回归,通过优化目标框与预测框中心点之间的距离,使回归过程更加平稳和准确;在公开数据集DIOR上评估了PARF-FCOS目标检测算法,实验结果表明,相较于原始FCOS,算法的平均精确度均值提高了4.3%,达到70.4%,检测速度达到23.2FPS。  相似文献   

8.
为了进一步降低目标检测出现的误检率,提出了一种基于传感器数据特征的融合目标检测算法。首先,为了减少部分离群噪声点对点云表达准确性的影响,采用统计滤波器对激光雷达原始点云进行滤波处理;其次,为了解决点云地面分割在坡度变化时,固定阈值会导致分割不理想的问题,提出了自适应坡度阈值的地面分割算法;然后,建立KD(k-dimensional)树索引,加速DBSCAN(density-based spatial clustering of applications with noise)点云聚类,基于Andrew最小凸包算法,拟合最小边界矩形,生成目标三维边界框,完成聚类后的目标点云位姿估计;最后,将激光雷达检测到的三维目标点云投影到图像上,投影边界框与图像检测的目标边界框通过IoU关联匹配,提出基于决策级的三维激光雷达与视觉图像信息融合算法。使用KITTI数据集进行的测试实验表明,提出的点云聚类平均耗时降低至173 ms,相比传统的欧氏距离聚类,准确性提升6%。搭建硬件实验平台,基于实测数据的实验结果表明,提出的融合算法在目标误检率上比YOLO v4网络降低了约10%。  相似文献   

9.
庄屹  赵海涛 《计算机应用》2022,42(5):1407-1416
与二维可见光图像相比,三维点云在空间中保留了物体真实丰富的几何信息,能够应对单目标跟踪问题中存在尺度变换的视觉挑战。针对三维目标跟踪精度受到点云数据稀疏性导致的信息缺失影响,以及物体位置变化带来的形变影响这两个问题,在端到端的学习模式下提出了由三个模块构成的提案聚合网络,通过在最佳提案内定位物体的中心来确定三维边界框从而实现三维点云中的单目标跟踪。首先,将模板和搜索区域的点云数据转换为鸟瞰伪图,模块一通过空间和跨通道注意力机制丰富特征信息;然后,模块二用基于锚框的深度互相关孪生区域提案子网给出最佳提案;最后,模块三先利用最佳提案对搜索区域的感兴趣区域池化操作来提取目标特征,随后聚合了目标与模板特征,利用稀疏调制可变形卷积层来解决点云稀疏以及形变的问题并确定了最终三维边界框。在KITTI跟踪数据集上把所提方法与最新的三维点云单目标跟踪方法进行比较的实验结果表明:在汽车类综合性实验中,真实场景中所提方法在成功率上提高了1.7个百分点,精确率上提高了0.2个百分点;在多类别扩展性实验上,即在汽车、货车、骑车人以及行人这4类上所提方法的平均成功率提高了0.8个百分点,平均精确率提高了2.8个百分点。可见,所提方法能够解决三维点云中的单目标跟踪问题,使得三维目标跟踪结果更加精确。  相似文献   

10.
针对自动驾驶场景下三维点云车辆的识别和定位问题,提出了一种基于注意力机制的三维点云车辆目标检测算法.算法将稀疏无序的点云空间划分成等距规则的体素表示,用三维稀疏卷积和辅助网络同步从所有体素中提取内部点云特征,进而生成鸟瞰图.但在将内部三维的点云特征转化为二维的鸟瞰图后,通常会造成目标空间特征信息丢失,使得最终检测结果以及方向性预估差.为进一步提取鸟瞰图中特征信息,提出了一种注意力机制模块,其中包含两种注意力模型,并对其采用首、中、尾的"立体式"布局结构,实现对鸟瞰图中特征信息的放大和抑制,最后使用卷积神经网络和PS-Warp变换机制对处理过后的鸟瞰图进行三维目标检测.实验表明,该算法在保证实时检测效率的前提下,与现有算法相比,具有更好的方向预估性以及更高的检测精度.  相似文献   

11.
激光雷达点云3D物体检测,对于小物体如行人、自行车的检测精度较低,容易漏检误检,提出一种多尺度Transformer激光雷达点云3D物体检测方法MSPT-RCNN(multi-scale point transformer-RCNN),提高点云3D物体检测精度.该方法包含两个阶段,即第一阶段(RPN)和第二阶段(RCN...  相似文献   

12.
LIDAR point cloud-based 3D object detection aims to sense the surrounding environment by anchoring objects with the Bounding Box (BBox). However, under the three-dimensional space of autonomous driving scenes, the previous object detection methods, due to the pre-processing of the original LIDAR point cloud into voxels or pillars, lose the coordinate information of the original point cloud, slow detection speed, and gain inaccurate bounding box positioning. To address the issues above, this study proposes a new two-stage network structure to extract point cloud features directly by PointNet++, which effectively preserves the original point cloud coordinate information. To improve the detection accuracy, a shell-based modeling method is proposed. It roughly determines which spherical shell the coordinates belong to. Then, the results are refined to ground truth, thereby narrowing the localization range and improving the detection accuracy. To improve the recall of 3D object detection with bounding boxes, this paper designs a self-attention module for 3D object detection with a skip connection structure. Some of these features are highlighted by weighting them on the feature dimensions. After training, it makes the feature weights that are favorable for object detection get larger. Thus, the extracted features are more adapted to the object detection task. Extensive comparison experiments and ablation experiments conducted on the KITTI dataset verify the effectiveness of our proposed method in improving recall and precision.  相似文献   

13.
针对交通目标检测模型参数量大、检测精度低、检测速度慢、泛化性差等问题,提出一种基于GhostNet与注意力机制的YOLOv5交通目标实时检测模型.采用基于遗传算法的K-means聚类方法获取适用于车辆检测的最佳预选框;采用轻量的Ghost卷积提取目标特征,并构建基于CSP结构的C3Ghost模块,大幅度压缩模型参数量,降低计算成本,提高计算速度;在特征融合层添加Transformer block和CBAM注意力模块,来探索模型特征提取潜力以及为模型在密集对象的场景中寻找注意力区域; UA-DETRAC数据集上的消融实验和综合性能评价结果表明所提模型平均精度达到98.68%,参数量为47 M,检测速度为65 FPS,与YOLOv5相比,参数量压缩了34%,速度提升43%,平均精度提高了1.05%.  相似文献   

14.
针对目前我国智能驾驶辅助系统识别道路交通标志检测速度慢、识别精度低等问题,提出一种基于YOLOv3的改进的道路交通标志检测算法。首先,将MobileNetv2作为基础特征提取网络引入YOLOv3以形成目标检测网络模块MN-YOLOv3,在MN-YOLOv3主干网络中引入两条Down-up连接进行特征融合,从而减少检测算法的模型参数,提高了检测模块的运行速度,增强了多尺度特征图之间的信息融合;然后,根据交通标志目标形状的特点,使用K-Means++算法产生先验框的初始聚类中心,并在边界框回归中引入距离交并比(DIOU)损失函数来将DIOU与非极大值抑制(NMS)结合;最后,将感兴趣区域(ROI)与上下文信息通过ROI Align统一尺寸后融合,从而增强目标特征表达。实验结果表明,所提算法性能更好,在长沙理工大学中国交通标志检测(CCTSDB)数据集上的平均准确率均值(mAP)可达96.20%。相较于Faster R-CNN、YOLOv3、Cascaded R-CNN检测算法,所提算法拥有具有更好的实时性和更高的检测精度,对各种环境变化具有更好的鲁棒性。  相似文献   

15.
二维手部姿态估计是人机交互领域的一项关键技术。为增强复杂环境下系统鲁棒性,提高手势姿态估计精度,提出一种基于目标检测和热图回归的YOLOv3-HM算法。首先,利用YOLOv3算法从RGB图像中识别框选手部区域,采用CIoU作为边界框损失函数;然后,结合热图回归算法对手部的21个关键点进行标注;最终,通过回归手部热图实现二维手部姿态估计。分别在FreiHAND数据集与真实场景下进行测试,结果表明,该算法相较于传统手势检测算法在姿态估计精度和检测速度上均有所提高,对手部关键点的识别准确率达到99.28%,实时检测速度达到59 f/s,在复杂场景下均能精准实现手部姿态估计。  相似文献   

16.
为提高平截头点云网络在三维障碍物检测中的精度,基于平截头点云网络的结构提出一种扩张平截头点云的检测方法。采用图像和点云数据,使用二维目标检测网络Yolov3,检测障碍物的二维包围框;扩张包围框的大小,在点云数据中提取出障碍物对应的点云;通过改进的Pointnet网络对该点云计算,得到障碍物的三维信息。在原模型基础上,加入扩张包围框,提高点云数据提取的完整性。通过KITTI数据集的验证和测试,实验结果表明,通过扩张二维包围框可以有效提高检测网络的性能。  相似文献   

17.
目的 目前视频目标检测(object detection from video)领域大量研究集中在提升预测框定位准确性,对于定位稳定性提升的研究则较少。然而,预测框定位稳定性对多目标跟踪、车辆行驶控制等算法具有重要影响,为提高预测框定位稳定性,本文提出了一种扩张性非极大值抑制(expanded non-maximum suppression,Exp_NMS)方法和帧间平滑策略(frame bounding box smooth,FBBS)。方法 目标检测阶段使用YOLO(you only look once)v3神经网络,非极大值抑制阶段通过融合多个预测框信息得出结果,增强预测框在连续视频流中的稳定性。后续利用视频相邻帧信息关联的特点,对预测框进行平滑处理,进一步提高预测框定位稳定性。结果 选用UA-DETRAC(University at Albany detection and tracking benchmark dataset)数据集进行分析实验,使用卡尔曼滤波多目标跟踪算法进行辅助验证。本文在MOT(multiple object tracking)评价指标基础上,设计了平均轨迹曲折度(average track-tortuosity,AT)来直观、量化地衡量预测框定位稳定性及跟踪轨迹的平滑度。实验结果表明,本文方法几乎不影响预测框定位准确性,且对定位稳定性有大幅改善,相应跟踪质量得到显著提升。测试视频的MOTA(multiple object tracking accuracy)提升6.0%、IDs(identity switches)减少16.8%,跟踪FP(false positives)类型错误下降45.83%,AT下降36.57%,mAP(mean average precision)仅下降0.07%。结论 从非极大值抑制和前后帧信息关联两个角度设计相关策略,经实验验证,本文方法在基本不影响预测框定位准确性的前提下,可有效提升预测框定位稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号