首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
特征融合是文本检测算法的重要步骤。为提升文本检测的召回率和准确率,提出一种利用RefineNet(Refinement Network)网络进行特征融合的改进EAST(Efficient and Accurate Scene Text Detector)算法。以ResNet(Residual Network)残差网络作为特征提取层的骨干网络,提取出2-5层的特征图;用RefineNet取代East模型中的维度拼接算法,融合多分辨率特征,将4路特征图合并成1路RCU(Residual Conv Unit)输出;经过卷积、池化和上采样等操作在输出层得到文本框的置信度、文本框的位置信息以及文本框旋转角度,通过非最大值抑制输出检测结果。实验结果表明,在相同实验环境条件下,采用该方法比原EAST方法准确率提高约2百分点,召回率提高约8百分点。  相似文献   

2.
针对文本图像倾斜检测的问题, 提出了一种新的基于几何约束的文本图像倾斜角自动检测算法。该算法采用边界标记自动机的方法对一组同行字符轮廓进行检测从而得到该组字符轮廓的最低点信息, 再用矩的方法剔除噪声字符, 并确定页面的倾斜角度。实验结果表明, 该算法在检测效率与准确率上都有了明显的提高, 同时在处理较大倾斜角和较少字符数目的倾斜检测中也有较好的执行效率。因此, 该算法可广泛应用于包括英文、中文、日文在内的多种语言文本图像的倾斜检测中。  相似文献   

3.
吕伶  李华  王武 《图学学报》2024,(1):56-64
针对自然场景文本长度不定、角度倾斜等难题,提出了一种基于增强特征提取网络与语义特征融合的文本检测方法。通过结合可变形卷积与空洞卷积,设计了一种增强扩张残差模块EDRM (Enhanced Dilated Residual Module),将其应用于ResNet18的conv4_x与conv5_x层,并以此作为骨干网络,在改善网络特征提取能力的同时提高特征图像分辨率,减少空间信息丢失。其次,针对现有算法提取文本语义特征仍不充分的问题,将双向长短期记忆网络BiLSTM (Bi-directional Long Short-Term Memory)引入特征融合部分,增强融合特征图对自然场景文本的表征能力以及特征序列的关联性,同时提高模型的文本定位能力。在多方向文本数据集ICDAR2015、长文本数据集MSRA-TD500上对模型展开评估,实验结果表明,该算法与当下高效的DBNet算法相比,F值分别提升1.8%、3.3%,表现出良好的竞争力。  相似文献   

4.
针对自然场景文本检测算法未能高效、准确地实现端到端的任意形状文本检测,提出了轻量型像素聚类文本核重建的文本检测算法,针对轻量型网络特征信息弱和感受野小的问题,设计了图像级上下文信息模块(imagelevel context module)来捕获全局图像信息和语义级上下文信息模块(semantic-level context module)学习目标区域信息,两者信息融合增强网络特征信息保证检测的准确性,为了有效区分相邻文本和定位弯曲文本,基于文本核启发将文字实例中心视为聚类中心,从核中心经过一次像素聚类重建完整的文字实例实现对任意形状文本的检测。方法在弯曲文本数据集Total-Text和CTW1500综合评分达到了84.1%和84.6%超过了最好的CARFT方法,检测速度42帧/s超过最优EAST的,有效地解决了检测形状文本的高效和准确性,在应用层面更加友好。  相似文献   

5.
为解决复杂拍摄背景下采集到的文本图像难以快速、准确地进行倾斜校正的问题,提出一种新的倾斜文本图像校正方法。该方法通过对选定图像的投影窗口的水平投影统计分析计算,自适应地筛选出只含有文字的文本特征子区。在特征子区内部,通过采用连通域横向搜索法定位文字行并拟合直线计算出文本线的倾斜角度,从而得到文本图像的倾斜角度,最后利用改进的快速旋转变换算法进行倾斜校正。实验结果表明,该倾斜校正方法不受成像背景、复杂版面的影响,具有速度快、精度高、适应性强的优点,可广泛应用于对速度和效率有更高要求的移动终端平台上。  相似文献   

6.
短文本由于其稀疏性、实时性、非标准性等特点,在文本特征选择和文本表示方面存在较多问题,从而影响文本分类精度。针对文本特征选择方面存在较高的特征维数灾难的问题,提出一种二阶段的文本特征选择算法。首先在互信息算法的基础上,引入平衡因子、频度、集中度、词性及词在文本中的位置等5个指标对互信息值进行计算,然后将排序结果靠前的特征集初始化进行遗传算法的训练从而得到最优特征集合。因为TFIDF在计算时针对的是整篇语料而没有考虑类间分布不均的情况,在计算IDF公式时引入方差,并将改进后的TFIDF公式对Word2Vec词向量进行加权表示文本。将改进算法应用在人工构建的百科用途短文本语料集中进行实验,实验结果表明改进的文本特征选择算法和文本表示算法对分类效果有2%~5%的提升。  相似文献   

7.
针对当前集装箱箱号识别算法定位不准确,对倾斜、扭曲文本识别能力弱的问题,提出了一种基于改进DBNet与改进CRNN的集装箱箱号识别算法。在DBNet的特征提取网络中引入了注意力机制,有效提升了其文本定位能力;在CRNN中引入了空间变换网络,增强了其对倾斜、扭曲文本的识别能力。将文本定位与识别模型联合串联推理,在测试场景下达到了98.3%的识别率,具有实用价值。  相似文献   

8.
针对目前用于文本图像文种识别的纹理特征描述子对文字行倾斜缺乏不变性,采用可控金字塔变换提取文本图像的纹理特征,通过对特征空间元素重新排列,提出一种对文字行倾斜具有鲁棒性的文本图像文种识别方法。不同倾斜角度文本图像的文种识别结果表明,该算法具有较高的识别准确率并对文字行倾斜具有较强的鲁棒性。  相似文献   

9.
针对光照不均和背景复杂度所导致的自然场景文本检测中文本的漏检和错检现象,提出一种基于笔画角度变换和宽度特征的自然场景文本检测方法。分析发现与非文本相比,文本具有较稳定的笔画角度变换次数和笔画宽度,针对这两个特性提出笔画外边界优劣角变换次数和增强笔画支持像素面积比两种特征。前者分段统计笔画外轮廓角度变换次数;后者计算笔画宽度稳定区域在笔画总面积的占比,用来分别反映笔画角度和宽度变化稳定特性。为降低文本漏检率,采用多通道最大稳定极值区域(maximally stable extremal regions,MSER)检测,合并所有候选区域,提取候选区域的笔画特征和纹理特征,利用支持向量机完成文本和非文本区域分类。在ICDAR2015数据库上,算法的精确率和召回率分别达到79.3%和72.8%,并在一定程度上解决了光照不均和复杂背景的问题。  相似文献   

10.
遥感图像俯视角带来的目标朝向多样性影响了大长宽比舰船目标检测的旋转不变性。针对这一问题,提出了一个基于改进YOLOv3的倾斜边界框检测模型。通过引入角度预测实现倾斜边界框回归;提出一种旋转卷积集成模块,通过旋转卷积和旋转激活提高深度卷积网络(Deep Convolutional Neural Networks,DCNN)特征图对于角度变化的敏感性;将目标边界框倾斜角度预测建模为由粗粒度到细粒度的两次角度分类问题;将角度惩罚引入模型的多任务损失函数中,使得模型能够学习目标的角度偏移。通过对舰船目标标注数据集上的实验可以看到,所提的模型和经典YOLOv3模型相比平均精度提高了12.7%,同时能够保持单阶段目标检测的速度优势。  相似文献   

11.
对于复杂背景图片的文字识别,首先要做的就是定位目标文字的位置,即文字检测。想要文字识别率高,那对文字检测的准确度的要求就非常高了。传统的RPN(region proposal network)神经网络在文字检测领域的研究已经很成熟,但RPN神经网络在营业执照水平文字检测的准确度上不是很理想。而基于CTPN(connectionist text proposal network)神经网络的文字检测模型明显提高了营业执照水平文字检测的正确率,但用于项目中的话,准确率还是远远不够的。该文是以最新的营业执照作为研究对象,由于检测的图片易受光照和采集设备的影响,加上营业执照的背景比较复杂,所以能够准确地检测到目标文字的位置就非常具有挑战性。文中是通过CTPN神经网络模型来检测出营业执照中水平文字所在的位置,用矩形框来标注,也就是横向水平检测。目前开源的CTPN模型,都是基于某种数据集来训练的,所以对营业执照的文字检测效果就很差,因此该文使用2000张营业执照图像作为实验数据,进行10000迭代训练CTPN模型,最终能够准确地检测到营业执照中目标文字的位置,供项目使用。  相似文献   

12.
近些年来,卷积神经网络算法在自然场景文本检测效果上较传统算法已经有了很大提升,但如何有效处理神经网络输出层候选框仍然值得研究。非极大值抑制算法(non-maximum suppression,NMS)通过选择最高置信度候选框作为检测结果,往往容易对较长文本以及混叠文本区域检测失效。考虑到该问题,可以将候选框集合进行排序滤波与融合计算,得到更准确的候选框,有效减少上述检测失效的情况。这种方法,可以直接嵌入原有方法中,而不需要改变网络结构或者增加任何训练量。通过在公开数据集上进行实验,对比其他方法,该方法有较大优势。  相似文献   

13.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

14.
针对化学实验场景下深度相机难以探测试管等透明物体距离,继而引起机械臂难以获取化学试管在空间中的三维坐标的问题,提出通过改进的深度学习算法YOLOv3 Tiny检测试管上的贴纸标签以获取透明化学试管的三维空间坐标;针对不同化学试管无法分类的问题,提出通过深度学习算法CTPN+BLSTM+CTC Loss识别标签上的文字信息对试管进行分类。本文采用深度相机、单目相机与搭载ROS系统的六轴机械臂为实验平台,在TensorFlow上训练化学标签检测模型与文字检测识别模型。通过在机械臂搭载的树莓派上的ROS系统进行Python编程对贴有不同的化学标签的化学试管进行抓取实验,结果显示该方法对贴有标签的透明试管具有较高的识别率及定位准确率,可以实现机械臂抓取装有不同物质的化学试管。  相似文献   

15.
研究了图像定位的问题,由于存在污渍干扰等影响图像定位,针对以往单一特征进行图像文字定位及识别的系统中容易受到各种环境因素干扰的缺陷,提出了一种利用轴对称窗口进行边缘检测的图像文字检测算法。首先将利用轴对称滑动窗口提取水平和竖直方向上的边缘特征,利用连通域确定初始的图像文字位置;通过对可能的图像文字区域进行颜色色调验证,区域内垂直方向直方图投影,从而确定最终的图像文字位置。由于利用多种特征综合检测图像文字进行仿真。仿真结果表明改进方法能准确检测出复杂场景下图像文字所在区域。  相似文献   

16.
基于正文结构和长句提取的网页去重算法*   总被引:3,自引:0,他引:3  
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。  相似文献   

17.
针对传统的最大稳定极值区域(MSER)方法无法很好地提取低对比度图像文本区域的问题,提出一种新的基于边缘增强的场景文本检测方法。首先,通过方向梯度值(HOG)有效地改进MSER方法,增强MSER方法对低对比度图像的鲁棒性,并在色彩空间分别求取最大稳定极值区域;其次,利用贝叶斯模型进行分类,主要采用笔画宽度、边缘梯度方向、拐角点三个平移旋转不变性特征剔除非字符区域;最后,利用字符的几何特性将字符整合成文本行,在公共数据集国际分析与文档识别(ICDAR)2003和ICDAR 2013评估了算法性能。实验结果表明,基于色彩空间的边缘增强的MSER方法能够解决背景复杂和不能从对比度低的场景图像中正确提取文本区域的问题。基于贝叶斯模型的分类方法在小样本的情况下能够更好地筛选字符,实现较高的召回率。相比传统的MSER进行文本检测的方法,所提方法提高了系统的检测率和实时性。  相似文献   

18.
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法.以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类.利用4种典型文档数据集进行仿真实验,实验结果表明...  相似文献   

19.
基于语言节奏的大规模文档去重算法研究   总被引:1,自引:1,他引:0       下载免费PDF全文
通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良好的召回率和准确率,可以将内容完全重复的文档、部分段落内容重复的文档及打乱段落顺序重组文档的重复性均检测出来,检测精度高且占用系统资源少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号