首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 100 毫秒
1.
文档的扭曲矫正是进行文档OCR(Optical Character Recognition)的基础步骤,对提高OCR的准确率有重要作用.文档图像的扭曲矫正常常依赖于文本的提取,然而目前文档图像矫正算法大都无法对复杂文档中的文本进行准确定位和分析,导致其矫正效果不理想.针对此问题,提出了一种基于全卷积网络的文字检测框架,并使用合成文档对网络进行针对性训练,可实现对字符、词、文本行三级文本信息的准确获取,进而对文本进行自适应采样并利用三次函数对页面进行三维建模,将矫正问题转化为模型参数优化问题,达到矫正复杂文档图像的目的.使用合成扭曲文档以及真实测试数据进行矫正实验,结果表明,提出的矫正方法能够对复杂文档进行精确的文本提取,明显改善了复杂文档图像矫正后的视觉效果,相比于其他算法,该算法矫正后OCR的准确率得到显著提高.  相似文献   

2.
目的 图像修复是根据图像中已知内容来自动恢复丢失内容的过程。目前基于深度学习的图像修复模型在自然图像和人脸图像修复上取得了一定效果,但是鲜有对文本图像修复的研究,其中保证结构连贯和纹理一致的方法也没有关注文字本身的修复。针对这一问题,提出了一种结构先验指导的文本图像修复模型。方法 首先以Transformer为基础,构建一个结构先验重建网络,捕捉全局依赖关系重建文本骨架和边缘结构先验图像,然后提出一种新的静态到动态残差模块(static-to-dynamic residual block,StDRB),将静态特征转换到动态文本图像序列特征,并将其融合到编码器—解码器结构的修复网络中,在结构先验指导和梯度先验损失等联合损失的监督下,使修复后的文本笔划连贯,内容真实自然,达到有利于下游文本检测和识别任务的目的。结果 实验在藏文和英文两种语言的合成数据集上,与4种图像修复模型进行了比较。结果表明,本文模型在主观视觉感受上达到了较好的效果,在藏文和英文数据集上的峰值信噪比和结构相似度分别达到了42.31 dB,98.10%和39.23 dB,98.55%,使用Tesseract OCR (optical character recognition)识别修复后藏文图像中的文字的准确率达到了62.83%,使用Tesseract OCR、CRNN (convolutional recurrent neural network)以及ASTER (attentional scene text recognizer)识别修复后英文图像中的文字的准确率分别达到了85.13%,86.04%和76.71%,均优于对比模型。结论 本文提出的文本图像修复模型借鉴了图像修复方法的思想,利用文本图像中文字本身的特性,取得了更加准确的文本图像修复结果。  相似文献   

3.
针对MnasNet网络在CIFAR-10等低分辨率图像数据集上识别率较低的问题,提出一种基于金字塔型的轻量化卷积瓶颈块取代原网络中的倒置残差瓶颈块,构建改进的MnasNet网络(PSMnasNet).首先,基于图片的分辨率,调整部分瓶颈块的下采样;然后结合空间金字塔池化方法构建金字塔结构瓶颈(PSBottleneck)...  相似文献   

4.
矫健  张磊  李晶 《计算机应用研究》2021,38(7):2200-2202
针对雾天图像语义分割中分割精度不高的问题,基于空洞空间金字塔池化、Xception模块和残差网络,提出一种雾天图像语义分割算法.该算法一方面使用空洞空间金字塔池化和残差网络,以多个采样率的并行卷积以及卷积核大小为1×1的卷积对输入图像进行多尺度的上下文特征提取;另一方面,采用解码器结构使用预训练后的Xception模块对提取的特征进行分类,得到每一个像素的预测结果,用于增强分割边界的细化得到边界精细的分割结果.实验表明,所提算法在foggy cityscapes数据集上的平均交并比为73.03%、73.81%与74.50%,分割性能良好.  相似文献   

5.
针对OCR 在识别文本图像时,由于扭曲造成的中英文混排文本图像识别率不理想 的情况,提出一种快速扭曲校正方法。图像经过预处理后,首先利用形态学膨胀定位文本行, 得到各文本行上下边界;分别对每个文本行参考垂直投影信息进行文字切分,获得字符包围盒; 然后根据中英文的不同特点在每个文本行中逐个对字符位置进行校正,最终实现图像重构。实 验结果表明,该方法校正速度快、精度高,对于中英文混排扭曲文档图像有较好地校正效果, 校正后图像OCR 识别率有明显提高。  相似文献   

6.
针对残差模型在信息传递过程中容易造成信息损耗与塌陷域、模型参数量大等问题,为提高残差模型的抗遮挡能力、分割完整性与减少模型参数量,提出了一种基于改进深度残差UNet(ResUnet)的高分辨率遥感影像道路信息提取方法。在原有ResUnet模型中,首先,用密集块替换原有的残差块,以提高信息传递能力;然后,在密集块之间加入转置层和空间通道压缩与激活模块,对空间和通道进行重新校准,强调重要特征抑制无用特征;最后,利用空洞空间卷积池化金字塔模块作为桥接部分,连接编码器与解码器,扩大感受野,提取多尺度特征。在马萨诸塞州道路数据集上进行实验。结果表明,所提出方法的精确度、召回率、F 1分数以及Dice系数分别达到了88.62%、84.19%、86.35%、83.22%,比原有ResUnet模型分别提高了0.63%、3.60%、2.10%、1.62%,表明了改进ResUnet网络具有良好的性能。  相似文献   

7.
识别文档图像中的文字,有助于人们管理和使用信息.MODI作为Microsoft Office内建的免费文字识别组件,使开发人员可以方便地,以较低的成本处理文档图像.本文通过研究MODI组件的OCR模块的特点和二次开发,以及与其他商业OCR软件的对比,验证了MODI在文档图像处理方面具有较高的可靠性和应用价值.  相似文献   

8.
针对当前农作物病害分割与识别模型病斑分割精度低、数据集不充分、训练速度过慢等问题,构建了一种基于改进的U-Net网络多尺度番茄叶部病害分割算法。在U-Net网络结构基础上进行改进,减小图像输入尺寸,在编码器中使用非对称Inception多通道卷积替换传统卷积,实现多尺度提取病害特征,提升模型准确度;在解码器中加入注意力模块,关注番茄病害边缘,减小上采样噪声;引入GN加速模型收敛,并将改进U-Net网络用在PlantVillage数据集上进行预训练,提高模型的分割准确度和速度。改进后的方法准确率、召回率和MIoU分别为92.9%、91.1%、93.6%,实验结果表明,该方法能够有效地提高模型对番茄的病害分割性能。  相似文献   

9.
邓方 《软件世界》2004,(9):99-99
利用OCR(光学字符识别)技术,我们可以轻松实现纸质文档的电子化,大大提高工作效率。但一直以来,OCR技术几乎都要依赖扫描仪来实现文字识别的功能,而扫描仪的局限性造成了我们无法实现随时随地采集文字图像,这也成为了OCR技术广泛应用的一个巨大瓶颈。最近,北京文通信息技术有限公司推出的一款慧视视觉图像文字识别系统,将OCR技术与数码相机、DV、拍照手机、PDA等图像输入设备相结合,实现了对任意视觉图像的识别。OCR技术可以将纸质图像中的文字转换成电子文档,其识别过程可简单分为以下三个步骤:首先是文字的分割,就是将图像中的文…  相似文献   

10.
电商图像背景较为复杂、文字区域形状多变,现有的文字检测模型无法精确检测文字位置这一问题。提出一种改进的文字检测模型——迭代自选择特征融合DBNet(iSFF-DBNet)。首先在主干网络提取特征后,在构建特征金字塔网络FPN的过程中引入注意力机制;然后提出了迭代自选择特征融合模块iSFF来提升模型的特征提取能力;最后引入双边上采样模块提升可微分二值化模块的自适应性能。实验结果表明,在ICPR MTWI 2018网络图像数据集文本检测任务中,对比标准的DBNet模型,所提改进模型的召回率和F-score分别提升了6.0%和2.4%。与其他文字检测模型相比,该模型在精确率和召回率上取得了平衡,能够更准确地检测文字。  相似文献   

11.
为全面、准确、快速地提取柱面电线杆标识牌信息,提出一种轻量级柱面电线杆标识牌字符识别算法Tiny-DBNet-CRNN。对柱面图像进行反投影矫正展平;融合注意力机制,利用深度可分离卷积残差块,构建轻量级文本检测网络分割出文本区域;构建字符识别模型CRNN输出标识牌字符信息。采用真实场景数据和ICDAR 2015数据进行实验,结果与当前流行模型相比,Tiny-DBNet-CRNN字符识别正确率提升了40.3%,达95.11%;在精度下降0.60%的微小损失下,检测速度提升3倍,参数规模上总体下降45.15%。  相似文献   

12.
在对复杂版面扭曲文档图像进行OCR识别时,识别率较低。针对这类文档图像提出一种基于形态学文本行定位的扭曲校正方法。首先根据形态学特征在复杂版面中定位文本行,区分处理文字区域和非文字区域,利用文本行信息提取文本线;再以文本线为基准利用窗口扫描法进行文字行校正,最终重构图像。实验结果表明,该方法校正效果明显,对于复杂版面的扭曲文档图像有较好的校正效果,校正后识别率大幅度提高。  相似文献   

13.
对咽喉器官分割是喉镜图像分析以及计算机辅助诊疗的先决条件.为准确地分割器官部位,提出一种用于咽喉器官分割的空洞残差金字塔算法.首先提出空洞残差(dilatedresidual,DR)模块,使用多种空洞卷积提取图像不同感受野下的特征,结合残差策略提升特征多样性并加快网络训练速度;然后将DR模块与特征金字塔结合,融合多尺度特征并补充器官浅层特征,使得网络适应器官的多种形态;最后设计咽喉器官分割网络——DRP-Mask.在8 000幅喉镜图像数据集上的实验结果表明,与其他5种语义分割网络相比, DRP-Mask的平均交并比提升2%~4%,比基准网络平均精度提升1.6%,实现对器官准确定位的同时也对其进行完整的分割,分割结果更贴合医生标注结果.  相似文献   

14.
说起文字识别(OCR),相像大家都不会对其陌生。利用该技术可以把图像上的文字转换成文本文字,省却重新输入的麻烦。但OCR软件较贵,现在我们只要能够接入网络,就可以免费获得此功能,心动了吗?  相似文献   

15.
针对目前卷积神经网络种子分选方法存在识别精度不高、模型参数量大、推理速度慢且难于部署等问题,提出了基于轻量级金字塔空洞卷积网络的种子分选方法;该网络提出了残差空间金字塔模块,利用不同扩张率的空洞卷积扩大感受野,更有效地提取多尺度特征;再结合深度可分离卷积技术减少模型参数量和计算复杂度;在网络结构中引入轻量级注意力机制模块,利用局部跨通道交互方式关注重要的信息,提高种子关键特征提取能力;实验结果表明,提出网络参数量仅为0.13 M,在玉米和红芸豆数据集上准确率高达96.00%和97.38%,在NVIDIA Quadro板卡上识别单张图片时间仅为4.51 ms,均优于主流轻量级网络MobileNetv2、Shufflenetv2和PPLC-Net等,可以满足工业现场实时识别的要求。  相似文献   

16.
为解决板坯喷涂面标实时识别问题,构建文本检测和识别模型。改进可微二值化算法网络,引入高效通道注意力模块SENet,进行自适应空间特征融合(ASFF),增强特征金字塔预测多尺度目标的能力。识别模型改进卷积递归神经网络的VGG网络,将卷积与循环神经网络联合训练。实验结果表明,检测模型的精确率、召回率和调和平均值达到93.30%、86.45%、89.85%,提升显著;识别模型平均准确率达到86.01%,精度提升4.99%。模型满足实时与准确性要求。  相似文献   

17.
为能够处理文档中印章元素的关键信息,促进办公智能化,提出一种基于极坐标转换的印章文字识别方法.根据印章元素通常成圆环状排列的特点,对中文印章图像进行极坐标展开,克服印章文字方向不统一的问题,利用CTPN+CRNN网络进行文字的检测与识别,对CTPN网络中的文本构造算法进行改进,实现对印章内容快速准确的识别.用该算法对自制的中文印章数据集进行实验,印章内容的文字识别召回率可以达到90.4%,表明该算法可以有效检测识别印章内容,对文档的分类与鉴别研究具有重要的意义.  相似文献   

18.
针对目前用于文本图像文种识别的纹理特征描述子对文字行倾斜缺乏不变性,采用可控金字塔变换提取文本图像的纹理特征,通过对特征空间元素重新排列,提出一种对文字行倾斜具有鲁棒性的文本图像文种识别方法。不同倾斜角度文本图像的文种识别结果表明,该算法具有较高的识别准确率并对文字行倾斜具有较强的鲁棒性。  相似文献   

19.
磁共振成像因具有无辐射、无创伤性,成为临床中最常用的辅助诊断技术之一,但过长的扫描时间和封闭的环境,不仅导致病人产生幽闭恐惧心理,也造成医疗成本的升高。针对此问题,提出了一种以生成对抗网络为核心的磁共振图像重建算法,将U-net网络作为生成器,编码部分使用残差结构以缓解网络退化,并提出空洞金字塔结构,利用空洞卷积的不同扩张率融合不同尺度的上下文信息并添加于解码层之前。判别器中通过一系列卷积实现特征下采样,并利用sigmoid函数完成特征分类,将集成学习的思想融入其中,使重建效果进一步提升。对比已有研究成果和主流重建网络,该模型在10%、20%、30%、50%采样率的测试集中,各项重建指标均排名第一。结果表明,该模型不仅能有效提升磁共振图像重建质量,同时也具有良好的泛化性。  相似文献   

20.
针对航拍图像中的道路检测问题,提出了一种基于预测和残差细化网络的航拍图像道路提取算法。首先,预测网络进行初始预测,为了提高分割网络的细化能力,学习到更高层的道路特征信息,预测网络中引入了空洞卷积和多核池化模块。其次,残差细化网络对预测网络的输出进一步细化,改善预测网络结果出现的模糊问题。此外,针对航拍图像中道路像素比例较小的特点,网络还融合了二元交叉熵、结构相似性以及交并比损失函数,以减少道路信息损失。在Massachusetts道路数据集上的实验结果表明,精确率、召回率、F值和准确率等指标分别达到了99.3%,95.7%,97.3%和95.1%,交并比及平均结构相似性评价指标也分别达到了94.8%和84.3%,相比于其他算法,该算法有一定的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号