首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
王建新  王子亚  田萱 《软件学报》2020,31(5):1465-1496
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.  相似文献   

2.
随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展.受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战.从深度学习的角度对场景文本检测和文字识别技术进行深入研究,总结出在文本检测技术中将基于分割的方法与回归的方法优势相结合,可以...  相似文献   

3.
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。  相似文献   

4.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

5.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

6.
为了满足医疗行业大量针式票据录入工作的需求,解决传统人工录入方式效率低、精度低的问题,构建了双网络模型下的针式打印字体医疗票据识别方法。传统目标检测网络的参数同时描述了目标的位置与类别信息,其用于大规模定位识别任务时由于参数量庞大导致网络极难以训练,为解决以上问题,提出了双网络模型方法以联合FasterRCNN与深度卷积神经网络实现票据中字符的定位与识别,双网络将定位与识别分步进行以降低任务的复杂度。实验采用自建票据数据集与字库数据集进行网络训练,利用现场采集的票据验证了算法的有效性,通过测试不同参数下模型的性能来选定最佳参数,并对比分析了该方法与传统方法的识别效果。实际测试表明,识别准确率达95.4%,召回率达92.7%,速度达0.76 s/张。  相似文献   

7.
古印章文本因图像退化与超多分类等特点导致识别难度大,部分字符的标注数据不足造成基于深度学习的模型识别准确率不高,泛化能力差.针对上述问题,提出基于深度残差网络(ResNet)和迁移学习的古印章文本识别方法.使用深度残差网络作为特征提取网络,利用人工合成字符样本作为源域进行预训练.将自建古印章文本识别数据集作为目标域,引...  相似文献   

8.
介绍了深度学习和文本识别的基本概念,讲解了文本识别的分类、基本步骤和挑战,重点研究了基于深度学习的文本识别模型——卷积循环神经网络(CRNN),对其特点、网络结构进行了研究,对比了Attention模型和CRNN模型的优缺点。  相似文献   

9.
目的 基于深度学习的端到端场景文本识别任务已经取得了很大的进展。然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果。为了提高掩码预测的准确率,提出了一种基于软注意力的掩码嵌入模块(soft attention mask embedding,SAME),方法 利用Transformer更好的全局感受野,将高层特征进行编码并计算软注意力,然后将编码特征与预测掩码层级嵌入,生成更贴近文本边界的掩码来抑制背景噪声。基于SAME强大的文本掩码优化及细粒度文本特征提取能力,进一步提出了一个健壮的文本识别框架SAME-Net,开展无需字符级注释的端到端精准文本识别。具体来说,由于软注意力是可微的,所提出的SAME-Net可以将识别损失传播回检测分支,以通过学习注意力的权重来指导文本检测,使检测分支可以由检测和识别目标联合优化。结果 在多个文本识别公开数据集上的实验表明了所提方法的有效性。其中,SAME-Net在任意形状文本数据集Total-Text上实现了84.02%的H-mean,相比于2022年的GLASS(global to local attention for scene-text spotting),在不增加额外训练数据的情况下,全词典的识别准确率提升1.02%。所提方法在多向数据集ICDAR 2015(International Conference on Document Analysis and Recognition)也获得了与同期工作相当的性能,取得83.4%的强词典识别结果。结论 提出了一种基于SAME的端到端文本识别方法。该方法利用Transformer的全局感受野生成靠近文本边界的掩码来抑制背景噪声,提出的SAME模块可以将识别损失反向传输到检测模块,并且不需要额外的文本校正模块。通过检测和识别模块的联合优化,可以在没有字符级标注的情况下实现出色的文本定位性能。  相似文献   

10.
文档分析与识别(简称文档识别)技术将各种非结构化文档数据(图像、联机笔迹)转化为结构化数据,便于计算机处理和理解,应用场景十分广阔。20世纪60年代以来,文档识别方法研究与应用受到广泛关注并取得巨大进展。得益于深度学习技术的发展和应用,文档识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息抽取等领域得到广泛应用。首先介绍文档识别的背景和技术范畴,回顾该领域发展历史,然后重点对深度学习方法兴起以来的研究进行综述,分析当前技术存在的不足,并建议未来值得重视的研究方向。研究现状综述部分,按文档分析与识别的几个主要技术环节(文档图像预处理、版面分析、场景文本检测、文本识别、结构化符号和图形识别、文档检索与信息抽取)分别进行介绍,简述传统方法研究的代表性工作,重点介绍深度学习方法研究的新进展。总体上,当前研究对象向深度、广度扩展,处理方法全面转向深度神经网络模型和深度学习方法,识别性能大幅提升且应用场景不断扩展。在现状分析基础上,指出当前技术在识别精度和可靠性、可解释性、学习能力和自适应性等方面还有明显不足。最后从提升性能、应用扩展、提升学习能力几个角度提出一些研究方向。从提升性能角度,研究问题包括文本识别可靠性、可解释性、全要素识别、长尾问题、多语言、复杂版面分割与理解、变形文档分析与识别等。应用扩展包括新应用(如机器人流程自动化(robotic process automation,RPA)、文字信息抄录、考古)和新技术问题(语义信息抽取、跨模态融合、面向应用的推理决策等)两方面。从提升学习能力角度,相关问题包括小样本学习、迁移学习、多任务学习、领域自适应、结构化预测、弱监督学习、自监督学习、开放集学习和跨模态学习等。  相似文献   

11.
基于连通分量特征的文本检测与分割   总被引:3,自引:0,他引:3       下载免费PDF全文
自然背景中的文本识别具有巨大的应用价值,但其应用却一直受到文本检测和分割技术的限制。为了更有效地进行文本检测与分割,提出了一种基于连通分量特征的自然场景中文本检测分割算法。该算法首先将原始图片通过Niblack方法分解为许多连通分量;接着,用一个级联分类器和一个SVM组成的两阶段分类模块来验证这些连通分量的文本特征。由于文本连通分量和非文本连通分量在特征上存在差异,大多数非文本会被级联分类器丢弃,而SVM则能在此结果上做进一步的验证,因此最终输出只有文本的二值图像。最后用该算法在测试数据上进行了评估实验,评估结果表明,检测精度超过90%,响应超过93%。  相似文献   

12.
文本分类技术是自然语言处理领域的研究热点,其主要应用于舆情检测、新闻文本分类等领域。近年来,人工神经网络技术在自然语言处理的许多任务中有着很好的表现,将神经网络技术应用于文本分类取得了许多成果。在基于深度学习的文本分类领域,文本分类的数值化表示技术和基于深度学习的文本分类技术是两个重要的研究方向。对目前文本表示的有关词向量的重要技术和应用于文本分类的深度学习方法的实现原理和研究现状进行了系统的分析和总结,并针对当前的技术发展,分析了文本分类方法的不足和发展趋势。  相似文献   

13.
文本分类是自然语言处理领域的核心任务之一,深度学习的发展给文本分类带来更广阔的发展前景.针对当前基于深度学习的文本分类方法在长文本分类中的优势和不足,该文提出一种文本分类模型,在层次模型基础上引入混合注意力机制来关注文本中的重要部分.首先,按照文档的层次结构分别对句子和文档进行编码;其次,在每个层级分别使用注意力机制....  相似文献   

14.
银行故障单中故障的截图常存在与自然场景中,能够在该图中精确地进行文本检测,将可以提高文本识别的精确度,并提高案例库的搜索和主动运维能力.为了提高自然场景文本检测的效率,提出了一种基于深度学习的自然场景文本检测算法.算法首先提取出图像中的最大稳定极值区域作为候选字母,利用单链接层次聚类得到候选文本,对候选文本进行中值滤波,最后通过一个深度置信网络DBN来删除非文本候选.实验结果表明,基于DBN的方法能有效提高自然场景文本检测的准确率,比传统方法具有更好的结果.  相似文献   

15.
随着深度学习的发展,越来越多基于神经网络的算法用于实现文本情感分类,在分类上的精度不断提升,如果一味追求精度而加深网络的层次,会给实际应用场景中的响应等性能带来较大阻碍.通过研究文本的嵌入式表示等技术,在时下前沿的FastText模型基础上进一步捕捉分类逻辑中重点的文本特征,提出了新的轻量化的权重驱动的文本情感分类模型...  相似文献   

16.
视频文本的自动提取方法   总被引:4,自引:0,他引:4  
提出一种基于彩色边缘检测和游程平滑的视频文本提取方法,首先用彩色边缘检测算子检测出图像中的边缘。然后用多次水平和垂直的游程平滑操作使得文字边缘形成连通区域,并去掉部分孤立的噪声,再通过对连通域的分析和分解定位出文本区域的边界,最后对文本区进行确认.实验表明,本文的视频文本自动提取方法具有较高的文本提取率和较准确的边界定位。  相似文献   

17.
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。  相似文献   

18.
朱成军  李超  熊璋 《计算机工程》2007,33(10):218-219
视频中的文本提供了描述视频内容的有用信息,对于构建基于高级语义的多媒体检索系统具有重要作用。该文从视频文本的特点出发,分析了视频文本检测和识别的各种技术方法及优缺点,以及该领域国内外的发展现状和下一步研究的重点方向。  相似文献   

19.
随着人们对场景文本检测领域的探索,对于自然场景中较规则文本的检测结果较好,然而对于任意方向的文本和复杂背景图像文本检测结果依然不理想。基于此,提出了一种改进的深度关系推理图网络模型。模型通过不同于anchor思想的文本组件预测部分,直接预测文本行,然后利用深度关系推理网络,推理出待检测文本行。同时引入Resnet50和SENet网络,提高模型特征提取能力和模型鲁棒性。通过在CTW1500和ICDAR2015两个数据集上对改良的模型进行评价,证明了改进算法的可行性。  相似文献   

20.
自然场景图像中的文本检测综述   总被引:3,自引:0,他引:3  
王润民  桑农  丁丁  陈杰  叶齐祥  高常鑫  刘丽 《自动化学报》2018,44(12):2113-2141
本文对自然场景文本检测问题及其方法的研究进展进行了综述.首先,论述了自然场景文本的特点、自然场景文本检测技术的研究背景、现状以及主要技术路线.其次,从传统文本检测以及深度学习文本检测的视角出发,梳理、分析并比较了各类自然场景文本检测方法的优缺点,并介绍了端对端文本识别技术.再次,论述了自然场景文本检测技术所面临的挑战,探讨了相应的解决方案.最后,本文列举了测试基准数据集、评估方法,将最具代表性的自然场景文本检测方法的性能进行了比较,本文还展望了本领域的发展趋势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号