共查询到19条相似文献,搜索用时 78 毫秒
1.
针对场景文字区域尺度变化较大,具有较大的长宽比,且具有任意方向性等问题,提出一种基于神经网络的场景文字检测模型.基于直接回归方法设计,无需预先设置锚框,在多次层次构建特征,且在多个分支之间共享卷积核.实验阶段在多个数据集上验证了模型的有效性,相较于现有方法,该模型计算资源消耗更小,推理速度更快,整体性能更好. 相似文献
2.
朱盈盈张拯章成全张兆翔白翔刘文予 《数据采集与处理》2017,32(6):1097-1106
在文字检测的相关研究中,针对文字的候选框提取方法并未得到广泛关注与深入挖掘。一方面由于文字本身结构和一般物体具有较强的差异性,另一方面由于文字对检测的精度要求高。本文提出了一种针对文字的候选框提取算法,该算法首先利用全卷积网络进行快速预测文字区域,有效地减少了候选框的搜索范围,然后针对文字特性对EdgeBox算法进行改进,使之适用于自然场景文字候选框的提取。此外,本文在两个自然场景文字检测的标准数据集上对该算法进行了评测,并与其他已有的候选框提取方法进行了比较。实验结果表明本文方法相较其他算法,具有更好的性能和鲁棒性。 相似文献
3.
针对目前主流的基于分割的文字检测方法中由于需要复杂的后处理过程保证检测精度,通常难以实现高检测速度的问题,提出一种应用位置注意力模块和金字塔注意力网络2种注意力机制的方法.首先用金字塔注意力网络对图像进行特征提取及语义分割;同时将位置注意力模块应用于高层特征,通过加强图像中相似物体的权重加强对文字的检测效果;最后进行简单有效的后处理,在实现较高检测准确度的前提下提高检测速度.实验结果表明,在Total-text数据集中,采用更轻量化的骨干网络时,所提方法在检测速度上优势明显;采用更深层的骨干网络时,所提方法的检测准确度领先2.0%. 相似文献
4.
场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,同时在自动驾驶、视频监控、增强现实等诸多领域具有广泛的应用价值.近年来,基于深度学习的场景分割技术取得了突破性进展,与传统场景分割算法相比获得分割精度的大幅度提升.首先分析和描述场景分割问题面临的3个主要难点:分割粒度细、尺度变化多样、空间相关性强;其次着重介绍了目前大部分基于深度学习的场景分割算法采用的“卷积-反卷积”结构;在此基础上,对近年来出现的基于深度学习的场景分割算法进行梳理,介绍针对场景分割问题的3个主要难点,分别提出基于高分辨率语义特征图、基于多尺度信息和基于空间上下文等场景分割算法;简要介绍常用的场景分割公开数据集;最后对基于深度学习的场景分割算法的研究前景进行总结和展望. 相似文献
5.
自然场景文本检测对于机器理解场景等有着重要作用。近年来,随着深度学习的发展,自然场景文字检测方法也日新月异,取得了很好的检测效果。分析、总结了近年来基于深度学习的场景文字检测方法,将其归纳分类为基于回归、基于分割,以及两者混合三种类型,并对各类检测方法的优缺点进行了对比分析。介绍了场景文本检测性能指标及常用的公开数据集以及下载方式。对场景文字检测领域研究进行总结和展望,有望为深度学习场景文本检测方法提供新的研究方向。 相似文献
6.
戴津 《计算机光盘软件与应用》2013,(18):104-104,106
图片中含有丰富的文字信息,这有利于正确理解图像内容,并对构建基于图片内容进行检索的系统具有重要意义。本文将基于自然场景中的文字特征的文本检测技术,进行了分类分析,并对国内外的研究现状进行了阐述。 相似文献
7.
8.
当图像中文字区域形状复杂多变时,传统锚点方法难以精确定位文字,针对这一问题,提出一种具有双塔结构的文字分割检测算法.在网络中增加自下而上的特征增强路径以充分提炼语义信息,与上一级自上而下的结构形成双金字塔模型;接着新增一条路径缩短较底层与最顶层特征之间的距离,同时使用膨胀卷积,增大卷积核的感受野;在损失函数的设计中引入... 相似文献
9.
针对槟榔去核工序中槟榔内核轮廓检测问题,提出一种基于语义分割的槟榔内核轮廓检测方法。分割模型以VGG16为基础网络,将全连接层替换为卷积层,增加了跳跃结构,将浅层特征经过采样后在同一尺度下与深层特征进行融合,并将常规卷积替换成扩张卷积,减少了学习参数,提升了分割模型的实时性,得到最终的FCN-Dilated-VGG-8s分割模型。该模型对槟榔图像分割的准确率达到98.79%,单张图像分割只需0.071 s,模型大小只有FCN-VGG-8s模型的37.5%。算法表现出良好的鲁棒性,实现了槟榔图像准确、快速分割。通过对分割完后的图像的边界提取,即可得到完整平滑的槟榔内核轮廓线。 相似文献
10.
针对隧道渗漏水病害面积检测中由于复杂环境干扰和隧道几何柱面形状影响而造成较大误差的问题,设计了基于FCN与视场柱面投影算法渗漏水面积检测算法。研制了无人病害巡检车,实现了隧道病害数据的无人采集,通过将FCN处理后的渗漏水病害图片进行视场转换和柱面投影模型的优化,提高了所计算病害面积的准确性。实验结果表明,该算法相比OSTU法、分水岭法和自适应阈值法算法使误检率下降至0.0189,有效提升了隧道渗漏水面积检测的精度。 相似文献
11.
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势. 相似文献
12.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83. 相似文献
13.
Scene text detection plays a significant role in various applications,such as object recognition,document management,and visual navigation.The instance segmentation based method has been mostly used in existing research due to its advantages in dealing with multi-oriented texts.However,a large number of non-text pixels exist in the labels during the model training,leading to text mis-segmentation.In this paper,we propose a novel multi-oriented scene text detection framework,which includes two main modules:character instance segmentation (one instance corresponds to one character),and character flow construction (one character flow corresponds to one word).We use feature pyramid network(FPN) to predict character and non-character instances with arbitrary directions.A joint network of FPN and bidirectional long short-term memory (BLSTM) is developed to explore the context information among isolated characters,which are finally grouped into character flows.Extensive experiments are conducted on ICDAR2013,ICDAR2015,MSRA-TD500 and MLT datasets to demonstrate the effectiveness of our approach.The F-measures are 92.62%,88.02%,83.69% and 77.81%,respectively. 相似文献
14.
基于全卷积网络的图像语义分割方法综述 总被引:1,自引:0,他引:1
自全卷积网络(Fully Convolutional Network,FCN)提出以后,应用深度学习技术在图像语义分割领域受到了许多计算机视觉和机器学习研究者的关注,现在这一方向已经成为人工智能方向的研究热点.FCN的核心思想是搭建一个全卷积网络,输入任意尺寸的图像,经过模型的有效学习和推理得到相同尺寸的输出.FCN的... 相似文献
15.
为了提升倾斜文本区域定位的准确度,提出了一种基于YOLO算法改进的YOLO_BOX定位模型。设置不同尺寸的anchor对图片进行训练,且定义LOSS损失函数训练预测模型;使用K-means算法对box进行聚类,并利用NMS方法进行多余候选框过滤;利用Angle Correct算法对聚类后的box进行灰度化处理,通过计算像素灰度值的方差来得到文字的倾斜角度并进行角度矫正。实验结果表明,优化后的YOLO_BOX定位模型在ICDAR2015数据集上,对自然场景中倾斜文本区域的定位中具有较高的准确率和召回率。 相似文献
16.
场景文本检测是场景文本识别中重要的一步,也是一个具有挑战性的问题。不同于一般的目标检测,场景文本检测的主要挑战在于自然场景图像中的文本具有任意方向,小的尺寸,以及多种宽高比。论文在TextBoxes[8]的基础上进行改进,提出了一个适用于任意方向文本的检测器,命名为OSTD(Oriented Scene Text Detector),可以有效且准确地检测自然场景中任意方向的文本。论文在公共数据集上对提出OSTD的进行评估。所有实验结果都表明,无论在准确性,还是实时性方面OSTD都是极具竞争力的方法。在1024×1024的ICDAR2015 Incidental Text数据集[16]上,OSTD的F-Measure=0.794,FPS=10.7。 相似文献
17.
自然场景图像中的文本检测综述 总被引:3,自引:0,他引:3
本文对自然场景文本检测问题及其方法的研究进展进行了综述.首先,论述了自然场景文本的特点、自然场景文本检测技术的研究背景、现状以及主要技术路线.其次,从传统文本检测以及深度学习文本检测的视角出发,梳理、分析并比较了各类自然场景文本检测方法的优缺点,并介绍了端对端文本识别技术.再次,论述了自然场景文本检测技术所面临的挑战,探讨了相应的解决方案.最后,本文列举了测试基准数据集、评估方法,将最具代表性的自然场景文本检测方法的性能进行了比较,本文还展望了本领域的发展趋势. 相似文献
18.
19.
随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展.受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战.从深度学习的角度对场景文本检测和文字识别技术进行深入研究,总结出在文本检测技术中将基于分割的方法与回归的方法优势相结合,可以... 相似文献