共查询到20条相似文献,搜索用时 15 毫秒
1.
为提升目标检测算法在复杂环境下的精确性和实用性,将多源信息和深度学习技术相结合,提出了一种基于双模态特征增强的目标检测方法。该方法以红外和可见光图像作为输入,利用颜色空间转换、边缘提取、直方图均衡化等传统图像处理方法丰富图像信息,达到数据增强效果;特征提取部分采用卷积神经网络结构分别提取目标红外及可见光信息,并设计混合注意力机制分别从通道和空间位置角度提升有效特征权重;同时,针对目标双模态信息,引入了自适应交叉融合结构,提高特征多样性;最后,利用交替上下采样将目标全局和局部特征充分融合,并以自主选择方式提取目标相关特征实现检测。通过在标准数据集以及实际场景数据集上的实验结果表明,所提方法有效融合并增强了目标多模态特征,提升了目标检测效果,并能较好的应用于电网场景中,辅助机器人完成目标设备检测。 相似文献
2.
吴锦涛;王安志;任春洪 《红外技术》2025,47(1):1-9
除RGB图像外,热红外图像也能提取出对显著性目标检测至关重要的显著性信息。热红外图像随着红外传感设备的发展和普及已经变得易于获取,RGB-T显著性目标检测已成为了热门研究领域,但目前仍缺少对现有方法全面的综述。首先介绍了基于机器学习的RGB-T显著性目标检测方法,然后着重介绍了两类基于深度学习的RGB-T显著性目标检测方法:基于卷积神经网络和基于Vision Transformer的方法。随后对相关数据集和评价指标进行介绍,并在这些数据集上对代表性的方法进行了定性和定量的比较分析。最后对RGB-T显著性目标检测面临的挑战及未来的发展方向进行了总结与展望。 相似文献
3.
在实际工业环境下,光线昏暗、文本不规整、设备有限等因素,使得文本检测成为一项具有挑战性的任务。针对此问题,设计了一种基于双线性操作的特征向量融合模块,并联合特征增强与半卷积组成轻量级文本检测网络RGFFD(ResNet18+GhostModule+特征金字塔增强模块(feature pyramid enhancement module,FPEM)+特征融合模块(feature fusion module,FFM)+可微分二值化(differenttiable binarization,DB))。其中,Ghost模块内嵌特征增强模块,提升特征提取能力,双线性特征向量融合模块融合多尺度信息,添加自适应阈值分割算法提高DB模块分割能力。在实际工厂环境下,采用嵌入式设备UP2 board对货箱编号进行文本检测,RGFFD检测速度达到6.5 f/s。同时在公共数据集ICDAR2015、Total-text上检测速度分别达到39.6 f/s和49.6 f/s,在自定义数据集上准确率达到88.9%,检测速度为30.7 f/s。 相似文献
4.
针对现有YOLOv7模型在洗手动作检测中存在的检测精度低、抗环境干扰能力弱、相似动作区分度低等问题,提出一种基于改进YOLOv7的CCL-YOLO目标检测算法。该算法通过引入增强型轴向局部注意力机制,有效增强模型对长距离上下文信息的捕捉能力;采用CARAFE算子代替原算法的最近邻插值上采样方法,实现更高效的内容感知与特征重组,在并未增加模型参数的情况下显著提高对动作检测的精度;通过将SPPCSPC模块优化为SPPFCSPC结构,在保持相同感受野的前提下,检测精度提高了2.9%,帧速率提高了10;设计轻量级自适应解耦检测头代替传统耦合检测头,有效缓解了检测任务的训练难度,在损失2%检测精度的情况下,召回率提高了7.6%,mAP@0.5值提高了2%。在自制数据集上进行对比实验,结果表明改进算法平均精度mAP@0.5达到81.2%,相比于YOLOv7算法检测精度提升7.2%,精确率和召回率分别提高2.9%和11%,能有效满足实际洗手动作检测需求。 相似文献
5.
6.
Because salient objects usually have fewer data in a scene, the problem of class imbalance is often encountered in salient object detection (SOD). In order to address this issue and achieve the consistent salient objects, we propose an adversarial focal loss network with improving generative adversarial networks for RGB-D SOD (called AFLNet), in which color and depth branches constitute the generator to achieve the saliency map, and adversarial branch with high-order potentials, instead of pixel-wise loss function, refines the output of the generator to obtain contextual information of objects. We infer the adversarial focal loss function to solve the problem of foreground–background class imbalance. To sufficiently fuse the high-level features of color and depth cues, an inception model is adopted in deep layers. We conduct a large number of experiments using our proposed model and its variants, and compare them with state-of-the-art methods. Quantitative and qualitative experimental results exhibit that our proposed approach can improve the accuracy of salient object detection and achieve the consistent objects. 相似文献
7.
针对基于深度学习的目标检测网络模型多采用级联的卷积网络结构进行特征提取,没有很好地利用多尺度特征融合的信息,以及卷积往往采用方形卷积核而没有提取出具备方向性的特征等问题,提出了一种特征提取模块,采用不同大小形状的卷积核结合异性卷积核并行提取特征,并进行融合。该类结构相比于级联网络更能提取并融合目标的多尺度特征,同时提取具有方向性的特征。提出的特征增强型单步目标检测器(Feature Enhanced Single Shot Detector,FESSD)网络基于单步目标检测器(Single Shot Detector,SSD),修改了网络结构、加入特征提取模块并采用多层特征融合,在VOC0712数据集上大大提高了检测准确率。 相似文献
8.
Objects that occupy a small portion of an image or a frame contain fewer pixels and contains less information. This makes small object detection a challenging task in computer vision. In this paper, an improved Single Shot multi-box Detector based on feature fusion and dilated convolution (FD-SSD) is proposed to solve the problem that small objects are difficult to detect. The proposed network uses VGG-16 as the backbone network, which mainly includes a multi-layer feature fusion module and a multi-branch residual dilated convolution module. In the multi-layer feature fusion module, the last two layers of the feature map are up-sampled, and then they are concatenated at the channel level with the shallow feature map to enhance the semantic information of the shallow feature map. In the multi-branch residual dilated convolution module, three dilated convolutions with different dilated ratios based on the residual network are combined to obtain the multi-scale context information of the feature without losing the original resolution of the feature map. In addition, deformable convolution is added to each detection layer to better adapt to the shape of small objects. The proposed FD-SSD achieved 79.1% mAP and 29.7% mAP on PASCAL VOC2007 dataset and MS COCO dataset respectively. Experimental results show that FD-SSD can effectively improve the utilization of multi-scale information of small objects, thus significantly improve the effect of the small object detection. 相似文献
9.
基于水下距离选通激光成像技术,提出了一种可用于长距离下的水下线状目标检测算法。该算法针对水下成像中低对比度、模糊和噪声等特性,首先采用对比度拉升、中值滤波、小波变换等方法对图像进行增强处理;然后利用Canny边缘检测算子提取出目标的边缘特征;最后针对边缘特征中出现的噪声边缘问题,选用了鲁棒性强的随机抽样一致性参数估计算法从边缘特征中检测出线状目标,并计算得到目标的位置和方向等相关参数。实验结果表明,该算法可以有效地检测出水下曲线状目标,弥补现有方法只能检测直线目标的不足,检测率可以达到93%,有效检测距离能达到5倍水下衰减长度。 相似文献
10.
伪装目标检测(camouflaged object detection,COD)旨在检测隐藏在复杂背景中的伪装目标。由于伪装目标的特点:前景与背景纹理相似、边缘对比度低,导致现有方法得到的预测图像边缘模糊、小目标区域缺失。因此,本文提出了边缘信息引导的伪装目标检测网络(edge information guided network,EIGNet) 。首先,通过低层特征和高层特征对目标的边缘进行显式建模,充分提取目标的边缘特征指导后续特征表示。然后,通过双分支结构处理不同维度的伪装目标。其中,全局分支用以提取全局上下文信息强调大目标的全局贡献,局部分支用以挖掘丰富的局部低级线索增强小目标的特征表示。最后,采用自顶向下的方式实现相邻层特征的逐步融合,得到具有精细边缘和完整区域的预测图像。在3个伪装数据集上的实验结果表明本文方法优于其他15个模型,在NC4K数据集上平均绝对误差(mean absolute error,MAE) 降至0.044。 相似文献
11.
针对基于FCN和U型网络架构的深度学习显著性目标检测方法提取的显著性图存在边界不清晰和结构不完整的问题,文中提出了一种基于边缘信息引导多级尺度特征融合网络(EGMFNet)。EGMFNet使用多通道融合残差块(RCFBlock)以嵌套的U型网络架构作为主干模型。同时,在网络的较低层级引入具有边缘信息引导的全局空间注意力模块(EGSAM)以增强空间特征及边缘特征。此外,在损失函数中引入了图像边界损失,用于提升显著性图的质量并在学习过程中保留更加清晰的边界。在四个基准数据集上进行实验,实验结果表明,文中方法的F值较典型方法提升1.5%、2.7%、1.8%和1.6%,验证了EGMFNet网络模型的有效性。 相似文献
12.
针对复杂道路场景下行人检测精度与速度难以提升的问题,提出一种融合多尺度信息和跨维特征引导的轻量级行人检测算法。首先以高性能检测器YOLOX为基础框架,构建多尺度轻量卷积并嵌入主干网络中,以获取多尺度特征信息。然后设计了一种端到端的轻量特征引导注意力模块,采用跨维通道加权的方式将空间信息与通道信息融合,引导模型关注行人的可视区域。最后为减少模型在轻量化过程中特征信息的损失,使用增大感受野的深度可分离卷积构建特征融合网络。实验结果表明,相比于其他主流检测算法,所提算法在KITTI数据集上达到了71.03%的检测精度和80 FPS的检测速度,在背景复杂、密集遮挡、尺度不一等场景中都具有较好的鲁棒性和实时性。 相似文献
13.
Schemes to complement context relationships by cross-scale feature fusion have appeared in many RGB-D scene parsing algorithms; however, most of these works conduct multi-scale information interaction after multi-modal feature fusion, which ignores the information loss of the two modes in the original coding. Therefore, a cross-complementary fusion network (CCFNet) is designed in this paper to calibrate the multi-modal information before feature fusion, so as to improve the feature quality of each mode and the information complementarity ability of RGB and the depth map. First, we divided the features into low, middle, and high levels, among which the low-level features contain the global details of the image and the main learning features include texture, edge, and other features. The middle layer features contain not only some global detail features but also some local semantic features. Additionally, the high-level features contain rich local semantic features. Then, the feature information lost in the coding process of low and middle level features is supplemented and extracted through the designed cross feature enhancement module, and the high-level features are extracted through the feature enhancement module. In addition, the cross-modal fusion module is designed to integrate multi-modal features of different levels. The experimental results verify that the proposed CCFNet achieves excellent performance on the RGB-D scene parsing dataset containing clothing images, and the generalization ability of the model is verified by the dataset NYU Depth V2. 相似文献
14.
针对航拍图像中对于小尺度的飞机目标出现漏检、错检的问题,在SSD(SingleShotMultiBoxDetector)模型的基础上提出了一种改进SSD的航拍图像目标检测模型。首先,针对SSD模型中浅层特征图中缺乏语义、细节信息的问题,设计了一种特征融合机制,通过添加细节信息补充特征层和添加由递归反向路径获得的语义信息补充特征层来丰富浅层特征图的语义、细节信息。然后,针对SSD模型对通道以及空间信息的关注能力不足的问题,引入了结合通道和空间的混合注意力模块来提高模型整体的关注能力。最后,针对SSD模型中先验框与小尺度目标不匹配的问题,对先验框的比例进行了调整。使用自制的航拍图像数据集进行验证,结果表明改进后的模型检测精度为95.7%,相较于原模型提高了7.5%,检测速度达到30.8FPS。 相似文献
15.
为了解决自然场景文本检测中由于文本实例分布随机、形态与尺度多样造成的检测难题,设计了一种基于注意力机制特征融合与增强的自然场景文本检测算法。利用注意力机制对有效特征提取的优势,在模型的解码融合阶段设计并引入了一种基于注意力的特征融合模块(Attention-based Feature Fusion Module, AFFM),利用空间和通道注意力分别为高层特征和低层特征引入更丰富的细节和全局信息,进一步提高了检测的准确率;设计了联合注意力特征增强模块(Joint Attention Feature Enhancement Module, JAM),利用卷积对级联后的特征在不同通道之间、空间位置间的联系建模,并生成联合特征权重mask对级联特征做加权,从而提高信息的表征能力,有效减少误检与漏检。在Total-Text和ICDAR2015两个数据集上对模型做评估,测试结果表明,该方法的F1综合指标分别达到了85.1%和87.6%,均优于当前主流算法。 相似文献
16.
基于深度学习的目标检测器RetinaNet和Libra RetinaNet均是使用特征金字塔网络融合多尺度特征,但上述两个检测器存在特征融合不充分的问题.鉴于此,提出一种多尺度特征融合算法.该算法是在Libra RetinaNet的基础上进一步扩展,通过建立两条自底向上的路径构建两个独立的特征融合模块,并将两个模块产生... 相似文献
17.
基于视觉显著特征提出一种新的图像融合算法.首先对源图像进行小波分解,得到低频系数和高频系数;然后针对低频系数提出一种基于视觉显著性的融合规则,对高频系数采用绝对值取大的融合规则;最后对融合后的低频系数和高频系数进行小波逆变换得到最终融合图像.该方法能完好地将源图像的细节融合在一起.仿真实验表明,该算法在视觉效果上比传统及改进方法更好,同时互信息、平均结构相似性、信息熵等传统客观评价指标有所提高. 相似文献
18.
针对无人机航拍图像背景复杂、小目标占比高且分布不均导致的现有算法精度不佳等问题,提出了一种面向无人机航拍图像的多尺度目标检测网络VTO-YOLOv8。首先,采用WIoU v3作为边界框回归损失函数,并使用明智的梯度分配策略,这一策略将使网络更加关注普通质量样本,从而提高其定位能力;其次,设计四层T-BiFPN结构,加强浅层特征和深层特征的融合;此外,设计C2f-DBB多分支模块,在不增加计算量的前提下,提升检测性能;同时,使用聚焦调制模块,加强不同尺度信息的交互。实验结果表明,网络在Visdrone2019数据集上相较基准模型在mAP50和mAP指标上分别提高了9.0%和5.9%,同时参数降低了22.6%,可更好地应用于无人机航拍目标检测中。 相似文献
19.
20.
叶志晖;武健;赵晓忠;王文娟;邵新光 《红外技术》2025,47(4):468-474
为提升目标检测方法在复杂场景下的检测效果,将深度学习算法与多模态信息融合技术相结合,提出了一种基于特征交互与自适应分组融合的多模态目标检测模型。模型采用红外和可见光目标图像为输入,以PP-LCNet网络为基础构建对称双支路特征提取结构,并引入特征交互模块,保证不同模态目标特征在提取过程中的信息互补;其次,设计二值化分组注意力机制,利用全局池化结合Sign函数将交互模块的输出特征以所属目标类别进行特征分组,再分别采用空间注意力机制增强各特征组中的目标信息;最后,基于分组增强后的特征,提取不同尺度下的同类特征组,通过自适应加权方式由深至浅进行多尺度融合,并根据融合后的各尺度特征实现目标预测。实验结果表明,所提方法在多模态特征交互、关键特征增强以及多尺度融合方面都有较大的提升作用,并且在复杂场景下,模型也具有更高的鲁棒性,可以更好地适用于不同场景中。 相似文献