首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
传统的自然场景文字检测方法所采用的手工设计特征在应对复杂自然场景时缺乏鲁棒性。针对复杂自然场景中的多方向文字检测问题,提出了一种新的基于深度学习文字检测方法,采用全卷积网络(Fully Convolutional Networks,FCN)并融合多尺度文字特征图,结合语义分割的方法分割文字候选区域,利用分割得到的文字候选区域直接获取文字候选检测框并进行扩大补偿处理,对文字候选检测框进行后处理得到最终检测结果。该方法在ICDAR2013、ICDAR2015标准数据集进行了测评,实验结果表明该方法相比一些最新方法取得了更好的性能。  相似文献   

2.
现有的场景文字检测算法存在特征能力提取不足和无法适应场景文本大小变化多端的问题。针对这些不足,对CRAFT算法进行改进,把原本的VGG16bn特征提取网络替换成ESPANet网络,使网络能够适应文字的大小变化,同时加入一种融合注意力机制让网络学习到空间和位置上的权重,达到增强重要特征、抑制无用特征的效果,从而提升在不同场景下字符的分割质量和分割能力。在ICDAR2013和ICDAR2015两个数据集上进行验证,实验结果表明改进之后的算法在准确率、召回率以及调和平均数三个指标都表现优异,更优于原CRAFT算法及其他文字检测算法。  相似文献   

3.
针对自然场景文本检测中存在大量假阳性问题,提出了嵌入重评分机制的自然场景文本检测方法。引入实例分割网络(Mask R-CNN)作为基本框架,实现对自然场景中多方向、不规则文本的检测;设计文本掩膜重评分机制,通过预测文本掩膜的质量,将文本的语义类别信息与其对应的掩膜完整性信息相结合,重新评估文本掩膜的质量,精确了文本的候选区域;重新设计损失函数的作用范围。上述模型基于端到端训练,在ICDAR2013、ICDAR2015和Total-Text等数据集进行性能测试,结果表明,提出的方法有效的提高了字符分割的完整性,较之现有方法明显地提高了文本检测的准确率和召回率,更适合自然场景中的不规则文本的识别。  相似文献   

4.
针对自然场景中复杂背景干扰检测的问题,本文提出一种基于视觉感知机制的场景文字检测定位方法。人类视觉感知机制通常分为快速并行预注意步骤与慢速串行注意步骤。本文方法基于人类感知机制提出一种场景文字检测定位方法,该方法首先通过两种视觉显著性方法进行预注意步骤,然后利用笔画特征以及文字相互关系实现注意步骤。本文方法在ICDAR 2013与场景汉字数据集中均取得较有竞争力的结果,实验表明可以较好地用于复杂背景的自然场景英文和汉字的检测。  相似文献   

5.
为改善自然场景文本检测任务中存在的分割边界粗糙和多尺度文本漏检等问题,提出了一种多尺度特征融合方法。首先,将密集连接型金字塔池化(DenseASPP)和卷积块注意力模块(CBAM)与渐进式尺度扩展网络(PSENet)进行紧密结合,前者作为尺度感知模块,可以提取丰富的多尺度信息,感知不同规模的文本;而后者作为注意力模块,能够突出多尺度信息中的关键特征,改善边界定位。然后,在骨干网络中添加空洞卷积扩大感受野。最后,在后处理阶段采用渐进式扩展算法优化文字行合成。在ICDAR2015和ICDAR2017-MLT数据集上的实验结果表明,综合评估指标F值相较于PSENet分别提升了2.47%和6.57%。可视化结果表明,该方法能够更好地分割文本边界,检测出PSENet漏检的文本。  相似文献   

6.
目的 场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想。针对此问题,提出了一种层级语义融合的场景文本检测算法。方法 该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息。首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力。然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果。此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性。结果 算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0%,相比其他模型提升了1.0%;在MSRA-TD500(MSRA text detection 500 database)数据集上,F值为88.2%,相比其他模型提升了1.0%;在ICDAR 2015(International Conference on Document Analysis and Recognition)数据集上,F值为87.0%。结论 提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度。  相似文献   

7.
在自然场景文字检测和识别任务中,现有大多数方法的文字检测和文字识别过程相对独立,导致这些方法处理速度较慢;此外,这些方法的训练和推理过程较为复杂,并且手工设计合理的架构比较困难。针对以上这些问题,基于可微分架构搜索方法提出了多分支自动选择网络(MBASNet),该网络由数个多分支自动选择块(MBASB)组成。MBASB能在不显著增加计算量的情况下通过自动搜索检测和识别性能较优的子分支结构,组合多个MBASB得到整个检测和识别网络。所提出的MBASNet可以同时训练检测子网络和识别子网络,降低文字检测和识别任务中网络的训练和推理难度,提高对文字的检测和识别速度。MBASNet在ICDAR2013数据集上取得了89.4%的精确率和91.4%的召回率,在ICDAR15数据集上取得了80.5%的精确率和86.8%的召回率,并且计算速度达到了每秒68帧。  相似文献   

8.
陈鹏  李鸣  张宇  王志鹏 《测控技术》2022,41(7):17-22
提出了一种结合卷积神经网络和递归神经网络的有效的端到端场景文本识别方法。首先使用特征金字塔(FPN)提取图像的多尺度特征,然后将引入残差网络(ResNet)的深度双向递归网络(Bi-LSTM)对这些特征进行编码,获得文本序列特征,进而引入注意力机制(Attention)对文本序列特征进行解码达到识别效果。在ICDAR2013、ICDAR2015数据集实验验证了该算法的有效性,该方法不仅降低了训练难度,而且提升了网络的收敛速度,提高了文本识别准确率。该方法的有效性在ICDAR2013、ICDAR2015数据集上得到了充分验证。  相似文献   

9.
目前在图像处理领域,自然场景下的文本定位算法是一项具有困难的挑战,EAST算法是近年来性能比较出色的自然场景文本定位算法之一,具有较高的召回率和识别率,但是仍存在感受野不够大,样本权重不合理的问题。因此对EAST算法进行改进,对EAST网络结构进行改进,加入ASPP网络,提高了感受野,对loss进行改进,优化了样本权重不合理的问题,提高了对文本的定位效果。实验结果表明,提出的算法在保持18 f/s的同时,在ICDAR 2015文本定位任务的召回率为78.43%,准确率为85.78%,F-score为81.94%,优于经典EAST算法。  相似文献   

10.
张矿  朱远平 《计算机应用》2016,36(12):3418-3422
提高复杂背景及噪声干扰文本图像的文本分割性能是文本识别研究中的重要问题和难点,为更好地解决这一难题,提出一种基于超像素融合的文本分割方法。首先对文本图像初始二值化,并估计文本笔画宽度;然后进行图像超像素分割并融合;最后利用超像素融合的局部相似性对初始二值化图像进行文本校验。实验结果表明,与最大稳定极值区域(MSER)及笔画超像素聚合(SSG)方法相比,所提方法在KAIST数据集上的分割精度分别提高了8.00个百分点和7.00个百分点,在ICDAR2003数据集上的文字识别率分别提高了5.33个百分点和4.88个百分点。所提方法具有较强的去噪能力。  相似文献   

11.
针对自然场景下多方向文本对象,提出一种基于深度学习的文本检测方法.该方法在设计锚框时剥离锚框的方向特征但保留其长宽比特征,在覆盖相同长宽比范围时,锚框设计数量减少,从而缓解采样密集时正负样本类别失衡的影响.在方法的后处理阶段,提出一种边界框校准算法,该算法利用最大稳定极值区域(MSER)获取字符边缘信息,通过基于规则的...  相似文献   

12.
当图像中文字区域形状复杂多变时,传统锚点方法难以精确定位文字,针对这一问题,提出一种具有双塔结构的文字分割检测算法.在网络中增加自下而上的特征增强路径以充分提炼语义信息,与上一级自上而下的结构形成双金字塔模型;接着新增一条路径缩短较底层与最顶层特征之间的距离,同时使用膨胀卷积,增大卷积核的感受野;在损失函数的设计中引入...  相似文献   

13.
针对光照不均和背景复杂度所导致的自然场景文本检测中文本的漏检和错检现象,提出一种基于笔画角度变换和宽度特征的自然场景文本检测方法。分析发现与非文本相比,文本具有较稳定的笔画角度变换次数和笔画宽度,针对这两个特性提出笔画外边界优劣角变换次数和增强笔画支持像素面积比两种特征。前者分段统计笔画外轮廓角度变换次数;后者计算笔画宽度稳定区域在笔画总面积的占比,用来分别反映笔画角度和宽度变化稳定特性。为降低文本漏检率,采用多通道最大稳定极值区域(maximally stable extremal regions,MSER)检测,合并所有候选区域,提取候选区域的笔画特征和纹理特征,利用支持向量机完成文本和非文本区域分类。在ICDAR2015数据库上,算法的精确率和召回率分别达到79.3%和72.8%,并在一定程度上解决了光照不均和复杂背景的问题。  相似文献   

14.
Text line segmentation in handwritten documents is an important task in the recognition of historical documents. Handwritten document images contain text lines with multiple orientations, touching and overlapping characters between consecutive text lines and different document structures, making line segmentation a difficult task. In this paper, we present a new approach for handwritten text line segmentation solving the problems of touching components, curvilinear text lines and horizontally overlapping components. The proposed algorithm formulates line segmentation as finding the central path in the area between two consecutive lines. This is solved as a graph traversal problem. A graph is constructed using the skeleton of the image. Then, a path-finding algorithm is used to find the optimum path between text lines. The proposed algorithm has been evaluated on a comprehensive dataset consisting of five databases: ICDAR2009, ICDAR2013, UMD, the George Washington and the Barcelona Marriages Database. The proposed method outperforms the state-of-the-art considering the different types and difficulties of the benchmarking data.  相似文献   

15.
张智  秦瑶  顾进广 《计算机应用研究》2021,38(8):2474-2478,2484
目前,多方向文本检测方法已经在各种数据集上取得了不错的性能,但是任意形状文本检测仍然存在一些困难,尤其是具有不同大小、形状、方向、颜色和样式的文本实例.为了更好地区分连续任意形状的文本实例和周边非文本区域,提出了一种基于分段的文本检测器,通过使用多边形偏移蒙版和边界增强来检测任意形状的场景文本.为了评估该方法的有效性,在ICDAR2015和Total-Text等公开数据集上进行了多组对比实验,实验结果证明该方法有着更卓越的性能.  相似文献   

16.
为了提升倾斜文本区域定位的准确度,提出了一种基于YOLO算法改进的YOLO_BOX定位模型。设置不同尺寸的anchor对图片进行训练,且定义LOSS损失函数训练预测模型;使用K-means算法对box进行聚类,并利用NMS方法进行多余候选框过滤;利用Angle Correct算法对聚类后的box进行灰度化处理,通过计算像素灰度值的方差来得到文字的倾斜角度并进行角度矫正。实验结果表明,优化后的YOLO_BOX定位模型在ICDAR2015数据集上,对自然场景中倾斜文本区域的定位中具有较高的准确率和召回率。  相似文献   

17.
Scene text detection plays a significant role in various applications,such as object recognition,document management,and visual navigation.The instance segmentation based method has been mostly used in existing research due to its advantages in dealing with multi-oriented texts.However,a large number of non-text pixels exist in the labels during the model training,leading to text mis-segmentation.In this paper,we propose a novel multi-oriented scene text detection framework,which includes two main modules:character instance segmentation (one instance corresponds to one character),and character flow construction (one character flow corresponds to one word).We use feature pyramid network(FPN) to predict character and non-character instances with arbitrary directions.A joint network of FPN and bidirectional long short-term memory (BLSTM) is developed to explore the context information among isolated characters,which are finally grouped into character flows.Extensive experiments are conducted on ICDAR2013,ICDAR2015,MSRA-TD500 and MLT datasets to demonstrate the effectiveness of our approach.The F-measures are 92.62%,88.02%,83.69% and 77.81%,respectively.  相似文献   

18.
随着深度学习技术的发展, 自然场景文本检测的性能获得了显著的提升. 但目前仍然存在两个主要的挑战: 一是速度和准确度之间的权衡, 二是对任意形状的文本实例的检测. 本文采用基于分割的方法高效准确的检测任意形状场景文本. 具体来说, 使用具有低计算成本的分割头和简洁高效的后处理, 分割头由特征金字塔增强模块和特征融合模块组成, 前者可以引入多层次的信息来指导更好的分割, 后者可以将前者给出的不同深度的特征集合成最终的特征进行分割. 本文采用可微二值化模块, 自适应地设置二值化阈值, 将分割方法产生的概率图转换为文本区域, 从而提高文本检测的性能. 在标准数据集ICDAR2015和Total-Text上, 本文提出的方法使用轻量级主干网络如ResNet18在速度和准确度方面都达到了可比较的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号