首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
信息时代,票据给人们的生活带来了极大的便利。但是,输入票据的过程较耗时,大量的票据会给财务人员带来一定的工作压力。幸运的是,大数据分析和深度学习技术的发展,使得通过一个基于深度学习的票据内容识别技术方案简化这一过程成为可能。这个方案涉及3个阶段。第一阶段,使用ResNet分类拍摄的票据图像。第二阶段,对特定的票据进行文本定位和识别。在文本检测阶段,DBNet被用来检测和定位票据中的细粒度文本。第三阶段,通过文本序列识别(Convolutional Recurrent Neural Network,CRNN)实现文本识别任务。基于深度学习的票据识别系统比人工识别的识别速度更快,准确率更高。  相似文献   

2.
针对当前集装箱箱号识别算法定位不准确,对倾斜、扭曲文本识别能力弱的问题,提出了一种基于改进DBNet与改进CRNN的集装箱箱号识别算法。在DBNet的特征提取网络中引入了注意力机制,有效提升了其文本定位能力;在CRNN中引入了空间变换网络,增强了其对倾斜、扭曲文本的识别能力。将文本定位与识别模型联合串联推理,在测试场景下达到了98.3%的识别率,具有实用价值。  相似文献   

3.
王建新  王子亚  田萱 《软件学报》2020,31(5):1465-1496
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.  相似文献   

4.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

5.
海军某部队导弹出入库使用人工登记,导致了出入库过程浪费大量的人力时间;利用深度学习,可实现自动登记;文章介绍了AA-CRNN算法,即在CRNN中加入非对称卷积,提升宽度感受区域,加入Attention机制对特征序列进行加权平均;通过在人工合成的数据集上进行实验对比分析,AA-CRNN算法识别目标导弹编号模型的准确率以及LOSS均达到较好的性能,较其他先进的文本识别算法,其字符准确率达到了98.9%,同时其平均编辑距离低至0.92,且经实际测试其均能准确识别出导弹编号;因此,利用改进的CRNN算法识别导弹编号,辅助工作人员进行导弹出入库自动登记方案是可行的.  相似文献   

6.
为解决乌金印刷多字体藏文的文本识别以字丁识别为主、识别字体类别单一或较少、无法实现端到端的藏文文本行识别等问题,根据藏文文字的书写特点,在基于分割的文本检测方法DBNet上,对比在MobileNetV3和ResNet34两种骨干网络下CRNN、Rosetta和RARE这3种端到端的文本识别算法;提出一种将常用74个藏文字符作为端到端文字识别的转录字典策略,提出一个针对藏文文本识别的评价指标。实验结果表明,以ResNet34为骨干网络的CRNN文本识别方法在测试集上的综合表现最佳。  相似文献   

7.
目的 模糊车牌识别是车牌识别领域的难题,针对模糊车牌图像收集困难、车牌识别算法模型太大、不适用于移动或嵌入式设备等不足,本文提出了一种轻量级的模糊车牌识别方法,使用深度卷积生成对抗网络生成模糊车牌图像,用于解决现实场景中模糊车牌难以收集的问题,在提升算法识别准确性的同时提升了部署泛化能力。方法 该算法主要包含两部分,即基于优化卷积生成对抗网络的模糊车牌图像生成和基于深度可分离卷积网络与双向长短时记忆(long short-term memory,LSTM)的轻量级车牌识别。首先,使用Wasserstein距离优化卷积生成对抗网络的损失函数,提高生成车牌图像的多样性和稳定性;其次,在卷积循环神经网络的基础上,结合深度可分离卷积设计了一个轻量级的车牌识别模型,深度可分离卷积网络在减少识别算法计算量的同时,能对训练样本进行有效的特征学习,将特征图转换为特征序列后输入到双向LSTM网络中,进行序列学习与标注。结果 实验表明,增加生成对抗网络生成的车牌图像,能有效提高本文算法、传统车牌识别和基于深度学习的车牌识别方法的识别率,为进一步提高各类算法的识别率提供了一种可行方案。结合深度可分离卷积的轻量级车牌识别模型,识别率与基于标准循环卷积神经网络(convolutional recurrent neural network,CRNN)的车牌识别方法经本文生成图像提高后的识别率相当,但在模型的大小和识别速度上都优于标准的CRNN模型,本文算法的模型大小为45 MB,识别速度为12.5帧/s,标准CRNN模型大小是82 MB,识别速度只有7帧/s。结论 使用生成对抗网络生成图像,可有效解决模糊车牌图像样本不足的问题;结合深度可分离卷积的轻量级车牌识别模型,具有良好的识别准确性和较好的部署泛化能力。  相似文献   

8.
古印章文本因图像退化与超多分类等特点导致识别难度大,部分字符的标注数据不足造成基于深度学习的模型识别准确率不高,泛化能力差.针对上述问题,提出基于深度残差网络(ResNet)和迁移学习的古印章文本识别方法.使用深度残差网络作为特征提取网络,利用人工合成字符样本作为源域进行预训练.将自建古印章文本识别数据集作为目标域,引...  相似文献   

9.
现有的场景文本识别器容易受到模糊文本图像的困扰, 导致在实际应用中性能较差. 因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器, 以提高输入图像的质量. 然而, 用于场景文本图像超分辨率任务的真实世界训练样本很难收集; 此外, 现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像, 而忽略了从HR到LR图像的模糊模式. 本文提出了模糊模式感知模块, 该模块从现有的真实世界HR-LR文本图像对中学习模糊模式, 并将其转移到其他HR图像中, 以生成具有不同退化程度的LR图像. 本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对, 以弥补训练数据的不足, 从而显著提高性能. 实验结果表明, 当配备提出的模糊模式感知模块时, 场景文本图像超分辨率方法的性能可以进一步提高, 例如, SOTA方法TG在使用CRNN文本识别器进行评估时, 识别准确率提高了5.8%.  相似文献   

10.
社会上流行的翻译软件已经具备了识别电子化文字的能力,但是这种软件在文字图片识别系统上还尚未完善。一些品牌的手机相册虽然有识别拷贝功能但存在识别率不高和文本要求严格等一些限制。通过深度学习的连接文本区域网络(CTPN)算法和卷积循环神经网络结构(CRNN)模型建立一个可以识别中英两种语言的系统,并嫁接到翻译软件中,使文字识别精确度中文达到97.34%,英文达到95.44%,逻辑语义顺序更加完善。  相似文献   

11.
目的 图像修复是根据图像中已知内容来自动恢复丢失内容的过程。目前基于深度学习的图像修复模型在自然图像和人脸图像修复上取得了一定效果,但是鲜有对文本图像修复的研究,其中保证结构连贯和纹理一致的方法也没有关注文字本身的修复。针对这一问题,提出了一种结构先验指导的文本图像修复模型。方法 首先以Transformer为基础,构建一个结构先验重建网络,捕捉全局依赖关系重建文本骨架和边缘结构先验图像,然后提出一种新的静态到动态残差模块(static-to-dynamic residual block,StDRB),将静态特征转换到动态文本图像序列特征,并将其融合到编码器—解码器结构的修复网络中,在结构先验指导和梯度先验损失等联合损失的监督下,使修复后的文本笔划连贯,内容真实自然,达到有利于下游文本检测和识别任务的目的。结果 实验在藏文和英文两种语言的合成数据集上,与4种图像修复模型进行了比较。结果表明,本文模型在主观视觉感受上达到了较好的效果,在藏文和英文数据集上的峰值信噪比和结构相似度分别达到了42.31 dB,98.10%和39.23 dB,98.55%,使用Tesseract OCR (optical character recognition)识别修复后藏文图像中的文字的准确率达到了62.83%,使用Tesseract OCR、CRNN (convolutional recurrent neural network)以及ASTER (attentional scene text recognizer)识别修复后英文图像中的文字的准确率分别达到了85.13%,86.04%和76.71%,均优于对比模型。结论 本文提出的文本图像修复模型借鉴了图像修复方法的思想,利用文本图像中文字本身的特性,取得了更加准确的文本图像修复结果。  相似文献   

12.
自然场景图像中的文字识别,不同于传统文本字符识别。自然场景图像中的文字经常面临着视角变化,多字体文本以及场景图像曝光严重等多种因素的影响,因此,难以准确地获取自然场景图像中字符信息。该文利用可微分二值化函数对自然场景图像进行处理,得到一张易处理二值化图像,并对二值化图像进行文本检测以便机器处理识别,最后利用卷积递归神经网络(CRNN);进行文本识别。该方法不仅提高了自然场景图像字符识别的准确度,而且解决了生活中多字体文字识别的难点。  相似文献   

13.
文本蕴含是自然语言处理的难点,其形式、类型复杂,知识难以概括。早期多利用词汇蕴含和逻辑推理知识识别蕴含,但该方法反对特定类型的蕴含有效。近年来,利用大规模数据训练深度学习模型的方法在句级蕴含关系识别任务上取得优异性能,但模型不可解释,尤其是无法标定引起蕴含的具体语言片段。该文研究文本蕴含成因形式,归纳为词汇、句法异构、常识和社会经验三类,并以句法异构蕴含为研究对象。针对上述两个问题,提出句法异构蕴含语块的概念,定义其边界识别任务。该文制定句法异构蕴含语块标注规范,建立标注数据集。在此基础上,分别建立基于规则和基于深度学习的模型,探索句法异构蕴含语块的自动识别方法。实验结果表明,该文提出的深度学习模型能有效发现蕴含语块,为下一步的研究提供可靠的基线方法。  相似文献   

14.
文档分析与识别(简称文档识别)技术将各种非结构化文档数据(图像、联机笔迹)转化为结构化数据,便于计算机处理和理解,应用场景十分广阔。20世纪60年代以来,文档识别方法研究与应用受到广泛关注并取得巨大进展。得益于深度学习技术的发展和应用,文档识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息抽取等领域得到广泛应用。首先介绍文档识别的背景和技术范畴,回顾该领域发展历史,然后重点对深度学习方法兴起以来的研究进行综述,分析当前技术存在的不足,并建议未来值得重视的研究方向。研究现状综述部分,按文档分析与识别的几个主要技术环节(文档图像预处理、版面分析、场景文本检测、文本识别、结构化符号和图形识别、文档检索与信息抽取)分别进行介绍,简述传统方法研究的代表性工作,重点介绍深度学习方法研究的新进展。总体上,当前研究对象向深度、广度扩展,处理方法全面转向深度神经网络模型和深度学习方法,识别性能大幅提升且应用场景不断扩展。在现状分析基础上,指出当前技术在识别精度和可靠性、可解释性、学习能力和自适应性等方面还有明显不足。最后从提升性能、应用扩展、提升学习能力几个角度提出一些研究方向。从提升性能角度,研究问题包括文本识别可靠性、可解释性、全要素识别、长尾问题、多语言、复杂版面分割与理解、变形文档分析与识别等。应用扩展包括新应用(如机器人流程自动化(robotic process automation,RPA)、文字信息抄录、考古)和新技术问题(语义信息抽取、跨模态融合、面向应用的推理决策等)两方面。从提升学习能力角度,相关问题包括小样本学习、迁移学习、多任务学习、领域自适应、结构化预测、弱监督学习、自监督学习、开放集学习和跨模态学习等。  相似文献   

15.
随着深度学习的快速发展,基于生成对抗网络的文本图像合成领域成为了当下计算机视觉研究的热点。生成对抗网络同时包含生成器和鉴别器,通过两者的博弈来实现逼真数据的生成。受生成对抗网络的启发,近几年提出了一系列的文本图像合成模型,从图像质量、多样性、语义一致性方面不断取得突破。为推动文本图像合成领域的研究发展,对现有文本图像合成技术进行了全面概述。从文本编码、文本直接合成图像、文本引导图像合成方面对文本图像合成模型进行了分类整理,并详细探讨了各类基于生成对抗网络的代表性模型的模型框架和关键性贡献。分析了现有的评估指标和常用的数据集,提出了现有方法在复杂场景和文本、多模态、轻量化模型、模型评价方法等方面的不足和未来的发展趋势。总结了目前生成对抗网络在各领域的发展,重点关注了在文本图像合成领域的应用,可以作为一个研究人员进行图像合成研究时选择深度学习相关方法的权衡和参考。  相似文献   

16.
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。  相似文献   

17.
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符级短文本语种识别方法。采用卷积神经网络从字符向量中获取词中字符组合信息;通过长短期记忆网络获取词与词之间的特征信息;使用全连接网络实现相似语言的语种识别。在维吾尔语、哈萨克语以及DSL2017数据集上的实验结果表明,该方法可以有效地提高相似语言短文本的识别精度。  相似文献   

18.
文字识别是深度学习网络的重要应用领域,主流算法基于光学信息预测自然场景文字。然而在一些特定领域的文本对象上,额外的关键特征将会进一步提高文字识别算法的准确性。在安防监控领域,画面中的时间戳文本拥有格式规范、限定数值范围等特点,根据这一特点,对时间戳文本识别网络进行了研究,提出一种时间戳信息约束机制,融合文本语义约束信息和光学特征达到识别规范文本的效果,增强输出时间戳文本的格式规范性和数值合理性。在全匹配率、编辑距离等标准上全面超过基于光学特征的经典文字识别算法。  相似文献   

19.
随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展.受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战.从深度学习的角度对场景文本检测和文字识别技术进行深入研究,总结出在文本检测技术中将基于分割的方法与回归的方法优势相结合,可以...  相似文献   

20.
文字识别是一种通用的图像理解技术,对信息检索、车牌识别和自动驾驶等应用的研究有着重要意义。随着神经网络的伟大复兴,场景文字识别任务得到了很大推动,近年来涌现了许多基于深度学习的文字识别算法。本文提出了一种基于特征融合的CRNN改进算法,使用三个通用的文字识别数据集从识别准确率、运行效率和模型大小三个方面进行分析。实验结果表明该算法在提高准确率的同时,运行效率也有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号