首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
当前场景文本检测技术面临的挑战主要体现在2个方面:模型实时性和准确性之间的权衡,以及任意形状文本的检测。它们决定了场景文本检测在真实场景中应用是否可行。针对以上2个问题,本文采用基于分割的方法,提出一种轻量且特征提取能力强的主干网络,可以实时准确地检测任意形状的自然场景文本。具体来说,使用了结构简单的双分辨率残差主干网络和低计算成本的深度聚合金字塔池化模块,将二者提取到的特征融合使用可微二值化模块进行分割。通过在标准英文数据集ICDAR2015上进行的对比实验表明,本文提出的改进方法有效,且在实时性和准确性上都达到可比较的结果。  相似文献   

2.
随着深度学习技术的发展, 自然场景文本检测的性能获得了显著的提升. 但目前仍然存在两个主要的挑战: 一是速度和准确度之间的权衡, 二是对任意形状的文本实例的检测. 本文采用基于分割的方法高效准确的检测任意形状场景文本. 具体来说, 使用具有低计算成本的分割头和简洁高效的后处理, 分割头由特征金字塔增强模块和特征融合模块组成, 前者可以引入多层次的信息来指导更好的分割, 后者可以将前者给出的不同深度的特征集合成最终的特征进行分割. 本文采用可微二值化模块, 自适应地设置二值化阈值, 将分割方法产生的概率图转换为文本区域, 从而提高文本检测的性能. 在标准数据集ICDAR2015和Total-Text上, 本文提出的方法使用轻量级主干网络如ResNet18在速度和准确度方面都达到了可比较的结果.  相似文献   

3.
为了解决基于彩色图像的显著性检测在多目标或小目标等场景下无法准确检测出显著目标的问题,提出了一种基于RGB-D跨模态特征融合的显著性检测网络模型,该网络模型以改进的全卷积神经网络(FCN)为双流主干网络,分别提取彩色与深度特征并作出预测,最后利用Inception结构融合生成最终显著图.针对原FCN实际感受野远低于理论感受野,没有真正利用图像全局信息的问题,设计了双分支结构的全局与局部特征提取块,利用全局特征分支提取全局信息并指导局部特征提取,并以此构建了改进的FCN.此外,考虑到不同层级上彩色与深度特征之间的差异性,提出了跨模态特征融合模块,采用点积有选择性地融合彩色和深度特征,与加法和级联相比,采用点乘可以有效减少噪声与冗余信息.通过在3个公开基准数据集上与21种主流网络相比的综合实验表明,所提模型在S值、F值和MAE这3个指标上基本处于前3水平,同时对模型大小进行了比较,其大小仅为MMCI的4.7%,与现有最小模型A2dele相比减少了22.8%.  相似文献   

4.
基于深度学习的自然场景文本检测发展快速,其中基于分割的文本检测算法因其对多方向和弯曲文本检测效果好而备受关注。目前大多数基于分割的文本检测方法为了更加充分利用高层语义特征和底层细粒度特征,特征提取部分通常采用ResNet+特征金字塔(FPN)结构,特征融合部分多用concat或者add进行融合,但FPN存在的不同特征尺度不一致问题可能导致融合结果冲突,进而影响后续分割效果。因此,基于目前快速高效的DBnet网络,对其特征融合方式进行改进,提出了一种基于自适应特征融合的场景文本检测网络。在公开数据集Icdar2015和ICDAR 2017-MLT上的实验结果均表明:文本改进网络与经典的DBnet相比,准确率、召回率、F分数均有所提升,仅FPS稍有降低。  相似文献   

5.
近年来,社交媒体常会以漫画的形式隐喻社会现象并倾述情感,为了解决漫画场景下多模态多标签情感识别存在的标签歧义问题,文中提出基于双流结构的多模态多标签漫画情感检测方法.使用余弦相似度对比模态间信息,并结合自注意力机制,交叉融合图像特征和文本特征.该方法主干为双流结构,使用Transformer模型作为图像的主干网络提取图像特征,利用Roberta预训练模型作为文本的主干网络提取文本特征.基于余弦相似度结合多头自注意力机制(COS-MHSA)提取图像的高层特征,最后融合高层特征和COS-MHSA多模态特征.在EmoRecCom漫画数据集上的实验验证文中方法的有效性,并给出方法对于情感检测的可视化结果.  相似文献   

6.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

7.
针对深度学习网络在特征提取过程中运用上采样操作而致使细节纹理等高频特征缺失的问题,提出一种金字塔频率特征融合目标检测网络.网络由3个深度学习金字塔网络构成,输入图像经初级金字塔提取深度特征后,分别通过高频、低频增强金字塔形成不同的频率特征,利用特征融合来凸显深度学习网络在信息逐层传递过程中对细节信息的保护能力,提高目标检测能力.通过在分组角点检测网络(CornerNet)算法框架基础上仿真测试,该算法对于目标模糊、目标重叠以及目标与背景反差小的情况,检测效果提升明显.在COCO数据集上的检测结果与CornerNet算法相比,平均精确率(average precision,AP)提高1%以上,尤其对行人、车辆等目标检测性能均有提高,适用于无人驾驶系统与智能机器人等应用场景.  相似文献   

8.
何建航  孙郡瑤  刘琼 《软件学报》2024,35(4):2039-2054
深度歧义是单帧图像多人3D姿态估计面临的重要挑战,提取图像上下文对缓解深度歧义极具潜力.自顶向下方法大多基于人体检测建模关键点关系,人体包围框粒度粗背景噪声占比较大,极易导致关键点偏移或误匹配,还将影响基于人体尺度因子估计绝对深度的可靠性.自底向上的方法直接检出图像中的人体关键点再逐一恢复3D人体姿态.虽然能够显式获取场景上下文,但在相对深度估计方面处于劣势.提出新的双分支网络,自顶向下分支基于关键点区域提议提取人体上下文,自底向上分支基于三维空间提取场景上下文.提出带噪声抑制的人体上下文提取方法,通过建模“关键点区域提议”描述人体目标,建模姿态关联的动态稀疏关键点关系剔除弱连接减少噪声传播.提出从鸟瞰视角提取场景上下文的方法,通过建模图像深度特征并映射鸟瞰平面获得三维空间人体位置布局;设计人体和场景上下文融合网络预测人体绝对深度.在公开数据集MuPoTS-3D和Human3.6M上的实验结果表明:与同类先进模型相比,所提模型HSC-Pose的相对和绝对3D关键点位置精度至少提高2.2%和0.5%;平均根关键点位置误差至少降低4.2 mm.  相似文献   

9.
从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。  相似文献   

10.
针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题,提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法。使用深度卷积神经网络代替传统的手工设计特征方式分别自动从可见模态及红外热模态的图片中提取单模态特征,根据ResNet(Residual Net)的阶段性特征图谱搭建特征金字塔网络,生成每个模态的特征金字塔,并将两个模态的特征金字塔进行逐层融合。选择深度学习通用目标检测算法--Faster R-CNN作为后续的目标定位与分类算法来解决多模态行人检测问题。在特征金字塔融合阶段,针对级联融合和较大值融合容易忽略弱特征,无法有效融合互补特征的问题,提出了一种锐化特征的特征金字塔融合方法,根据阈值强化突出强特征,互补叠加弱特征,有效利用每个模态的特征,进一步提高模型的检测效果。实验结果表明,特征金字塔聚合的多模态行人检测算法可以有效解决多模态行人检测问题,在KAIST数据集上的检测效果超过了目前该数据集上的最佳模型。  相似文献   

11.
针对现有基于深度学习的通用目标检测方法对机场场面环境目标尺度差别大,特别是小目标难以检测到的问题,提出了一个基于SSD算法并结合特征金字塔融合网络的多尺度目标检测算法.该算法采用了更深的ResNet-50作为骨干网络,并单独设计了六层额外特征层.使用特征金字塔网络进行特征融合,以获得更鲁棒的语义信息.使用Soft-NM...  相似文献   

12.
由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。  相似文献   

13.
当前目标检测算法对小目标检测存在特征信息易丢失的问题,利用网络处理高分辨率特征图数据可以缓解,但存在语义信息不足和计算负担大的缺点。为弥补这些缺点,提出一种有效处理高分辨率特征图、多深度子网并行连接的特征提取网络。构建输入图像金字塔,搭建多深度分支子网并行连接的结构,使用浅层网络处理图像金字塔中高分辨率特征图,深层网络处理低分辨率特征图,多分支同时运行并在中间位置进行两次特征融合,充分结合高分辨率特征信息和低分辨率语义信息;使用融合因子构建对小目标针对性强的多尺度特征融合结构,增强对小目标检测能力;使用注意力机制进一步提高特征提取能力。在公开数据集AI-TOD上进行实验表明,所设计的特征提取网络相较于其他常用特征提取网络对小目标的检测能力更强,在two-stage经典模型Faster-RCNN、one-stage经典模型SSD、YOLOv3以及anchor-free经典模型CenterNet上替换上原主干网络,检测平均精度mAP与原来相比分别提升了2.7、3.4、3.3、1.7个百分点,证明了所提网络结构的适用性和有效性。  相似文献   

14.
目的 获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法 该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高。非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果 本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR(International Conference on Document Analysis and Recognition) 2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1 帧/s;在CTW(Curve Text in the Wild) 1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8 帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3 帧/s,远远超出其他方法。结论 本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平。  相似文献   

15.
随着卷积神经网络与特征金字塔的发展,目标检测在大、中目标上取得了突破,但对于小目标存在漏检、检测精度低等问题。在YOLOv4算法的基础上进行改进,提出YOLOv4-RF算法,进一步提高模型对小目标的检测性能。使用空洞卷积替换YOLOv4中Neck部分的池化金字塔,在网络更深处减少语义丢失的同时获得更大的感受野。在此基础上,对主干网络进行轻量化并增加特征金字塔到主干网络的反馈机制,对来自浅层与深层融合的特征再次处理,保留更多小目标的特征信息,提高网络分类和定位的有效性。鉴于小目标物体属于困难检测样本,引入Focal Loss损失函数,增大困难样本的损失权重,形成YOLOv4-RF算法。在KITTI数据集上的实验数据表明,YOLOv4-RF在各个类别上的检测精度均高于YOLOv4,并在模型缩小138 MB的基础上提高了1.4%的平均精度均值(MAP@0.5)。  相似文献   

16.
Cui  Zhe  Sun  Hong-Mei  Yu  Jin-Tao  Yin  Ruo-Nan  Jia  Rui-Sheng 《Applied Intelligence》2022,52(2):1718-1739

When the picking robot picks green peaches, there are problems such as the color of the fruit being similar to the background color, overlapping fruits, and small fruit size, uneven lighting, and branches and leaves occlusion. As a result, the picking robot cannot quickly detect green peaches. In order to solve the above problems, a lightweight object detection network for fast detection of green peaches is proposed, which is composed of a backbone network, feature enhancement network, Lightweight Self-Attention (LSA) network, and four-scale prediction network. First, the lightweight detection unit LeanNet of the backbone network is designed, which uses the idea of deep separable convolution to achieve fast detection. Secondly, the feature enhancement module (P-Enhance) is designed, which uses convolution kernels of different receptive fields to extract different perceptual information in the feature map, which enhances the network’s feature extraction ability for green peach. Then, the LSA module is designed to generate a local saliency map based on green peach features, which effectively suppressed the irrelevant area of the branch and leaf background. Finally, a four-scale prediction network is designed, in which the Four-scale Pyramid Fusion (FSPF) module can generate a four-scale feature pyramid, which includes the color and shape of the green peach at different network depths, and is conducive to the detection of small volume green peaches. The experimental results show that precision, recall, and F1 of our method in the green peach test set reached 97.3%, 99.7%, and 98.5%, respectively. In the actual picking scenes, Qualcomm Snapdragon 865 embedded devices equipped with different state-of-the-art methods are used. Through comparative experiments in various scenarios, compared with the state-of-the-art method, both in terms of experimental data and visual effects, there is a significant improvement, which can meet the real-time object detection needs of picking robots.

  相似文献   

17.
RGB-D 图像在提供场景 RGB 信息的基础上添加了 Depth 信息,可以有效地描述场景的色彩及 三维几何信息。结合 RGB 图像及 Depth 图像的特点,提出一种将高层次的语义特征反向融合到低层次的边缘 细节特征的反向融合实例分割算法。该方法通过采用不同深度的特征金字塔网络(FPN)分别提取 RGB 与 Depth 图像特征,将高层特征经上采样后达到与最底层特征同等尺寸,再采用反向融合将高层特征融合到低层,同时 在掩码分支引入掩码优化结构,从而实现 RGB-D 的反向融合实例分割。实验结果表明,反向融合特征模型能 够在 RGB-D 实例分割的研究中获得更加优异的成绩,有效地融合了 Depth 图像与彩色图像 2 种不同特征图像 特征,在使用 ResNet-101 作为骨干网络的基础上,与不加入深度信息的 Mask R-CNN 相比平均精度提高 10.6%, 比直接正向融合 2 种特征平均精度提高 4.5%。  相似文献   

18.
本文利用卷积神经网络对高速公路服务区停车场进行场景分割与车位检测.首先,通过扩充高速公路服务区停车场数据集,利用卷积神经网络进行高速公路服务区停车场区域分割与车辆检测,并对特征提取网络进行权重共享,从而达到联合训练的目的及网络模型轻量化.进而,通过对车辆的纹理特征提取,采用金字塔特征融合的方法对小目标的识别进行强化.最后,利用高速公路服务区停车位的先验知识实时计算停车场的停车位信息.实际应用表明该方法在复杂场景下,对车位检测的准确率为94%,检测速度为每秒25帧,具有很强的泛化能力,适合用于高速公路服务区停车场车位检测.  相似文献   

19.
目的 多部位病灶具有大小各异和类型多样的特点,对其准确检测和分割具有一定的难度。为此,本文设计了一种2.5D深度卷积神经网络模型,实现对多种病灶类型的计算机断层扫描(computed tomography,CT)图像的病灶检测与分割。方法 利用密集卷积网络和双向特征金字塔网络组成的骨干网络提取图像中的多尺度和多维度信息,输入为带有标注的中央切片和提供空间信息的相邻切片共同组合而成的CT切片组。将融合空间信息的特征图送入区域建议网络并生成候选区域样本,再由多阈值级联网络组成的Cascade R-CNN(region convolutional neural networks)筛选高质量样本送入检测与分割分支进行训练。结果 本文模型在DeepLesion数据集上进行验证。结果表明,在测试集上的平均检测精度为83.15%,分割预测结果与真实标签的端点平均距离误差为1.27 mm,直径平均误差为1.69 mm,分割性能优于MULAN(multitask universal lesion analysis network for joint lesion detection,tagging and segmentation)和Auto RECIST(response evaluation criteria in solid tumors),且推断每幅图像平均时间花费仅91.7 ms。结论 对于多种部位的CT图像,本文模型取得良好的检测与分割性能,并且预测时间花费较少,适用病变类别与DeepLesion数据集类似的CT图像实现病灶检测与分割。本文模型在一定程度上能满足医疗人员利用计算机分析多部位CT图像的需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号