首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
针对传统的最大稳定极值区域(MSER)方法无法很好地提取低对比度图像文本区域的问题,提出一种新的基于边缘增强的场景文本检测方法。首先,通过方向梯度值(HOG)有效地改进MSER方法,增强MSER方法对低对比度图像的鲁棒性,并在色彩空间分别求取最大稳定极值区域;其次,利用贝叶斯模型进行分类,主要采用笔画宽度、边缘梯度方向、拐角点三个平移旋转不变性特征剔除非字符区域;最后,利用字符的几何特性将字符整合成文本行,在公共数据集国际分析与文档识别(ICDAR)2003和ICDAR 2013评估了算法性能。实验结果表明,基于色彩空间的边缘增强的MSER方法能够解决背景复杂和不能从对比度低的场景图像中正确提取文本区域的问题。基于贝叶斯模型的分类方法在小样本的情况下能够更好地筛选字符,实现较高的召回率。相比传统的MSER进行文本检测的方法,所提方法提高了系统的检测率和实时性。  相似文献   

2.
针对复杂场景下,由于文字背景复杂性而带来的文字定位不准确的问题,提出了一种Radon倾斜校正与MSER(最大稳定极值区域)结合的算法,基于该算法识别出文字在所处复杂背景中的位置。首先,对图像进行预处理,采用Canny算子对图像进行边缘检测,并利用Radon变换对倾斜图像进行校正。然后通过二进小波变换对图像进行增强处理,去除噪声。最后提取MSER,经过粗处理、细处理后,检测出文本所处位置。实验结果表明,基于Radon倾斜校正与MSER结合的方法,能够有效提高文本定位的准确率。  相似文献   

3.
利用数码相机拍摄自然图像时,往往存在彩色滤波阵列( CFA)插值效应,CFA插值使得图像三颜色分量之间具有很大的相关性。提出一种利用自然图像颜色通道之间的相关性来检测图像篡改操作的方法。首先,利用后验概率的方法对各颜色通道进行建模,从而准确估计出CFA插值产生的噪声;然后,利用高斯滤波器滤波并提取CFA插值特征;最后,根据提取出的特征进行分类并定位篡改区域。实验结果表明:该算法能够有效地对篡改的图像进行检测和定位。  相似文献   

4.
目的 目前基于卷积神经网络(CNN)的文本检测方法对自然场景中小尺度文本的定位非常困难。但自然场景图像中文本目标与其他目标存在很强的关联性,即自然场景中的文本通常伴随特定物体如广告牌、路牌等同时出现,基于此本文提出了一种顾及目标关联的级联CNN自然场景文本检测方法。方法 首先利用CNN检测文本目标及包含文本的关联物体目标,得到文本候选框及包含文本的关联物体候选框;再扩大包含文本的关联物体候选框区域,并从原始图像中裁剪,然后以该裁剪图像作为CNN的输入再精确检测文本候选框;最后采用非极大值抑制方法融合上述两步生成的文本候选框,得到文本检测结果。结果 本文方法能够有效地检测小尺度文本,在ICDAR-2013数据集上召回率、准确率和F值分别为0.817、0.880和0.847。结论 本文方法顾及自然场景中文本目标与包含文本的物体目标的强关联性,提高了自然场景图像中小尺度文本检测的召回率。  相似文献   

5.
针对在背景复杂、视角多变的仪表图像中提取数字区域信息的需求,本文提出一种改进的仪表数字区域定位方法。本文提出的方法主要是对仪表图像的连通域进行检测、分析和筛选,最终确认数字区域。具体方法为首先对光照不均、模糊的图像进行图像灰度化、直方图均衡、图像滤波、图像二值化等方法进行图像预处理。然后采用MSER算法的准确检测数字区域,产生一系列嵌套的最大极值稳定区域(MSER),对这些区域采用区域清理和区域像素拓展进行优化,建立数字候选区域,然后以笔画宽度变换(SWT)作为文本提取的关键特征,实现对文本候选区域的准确筛选,从而最终确定数字区域。  相似文献   

6.
殷航  张智  王耀林 《计算机应用与软件》2021,38(10):168-172,195
针对在复杂的自然场景中中文本倾斜、模糊、光照等检测难题,提出一种基于卷积神经网络YOLOv3与最大极值稳定区域MSER的检测方法YOLOv3-M,并针对中文场景分别改善YOLOv3与MSER.通过YOLOv3算法对图像文本区域的矩形坐标进行回归预测,设计一个基于MSER的角度检测方法与之关联,实现倾斜文本行的检测.YOLOv3-M弥补了YOLOv3不能检测倾斜目标的缺点以及MSER检测容易被复杂场景干扰的缺点,并且YOLOv3与MSER都在检测速度上有着优秀的表现.实验结果表明,YOLOv3-M算法准确率达到81.2%,召回率达到69.7%,其检测速度达到45帧/s.  相似文献   

7.
针对简单的循环神经网络(RNN)无法长时间记忆信息和单一的卷积神经网络(CNN)缺乏捕获文本上下文语义的能力的问题,为提升文本分类的准确率,提出一种门控循环单元(GRU)和胶囊特征融合的情感分析模型G-Caps。首先通过GRU捕捉文本的上下文全局特征,获得整体标量信息;其次在初始胶囊层将捕获的信息通过动态路由算法进行迭代,获取到表示文本整体属性的向量化的特征信息;最后在主胶囊部分进行特征间的组合以求获得更准确的文本属性,并根据各个特征的强度大小分析文本的情感极性。在基准数据集MR上进行的实验的结果表明,与初始卷积滤波器的CNN(CNN+INI)和批判学习的CNN(CL_CNN)方法相比,G-Caps的分类准确率分别提升了3.1个百分点和0.5个百分点。由此可见,G-Caps模型有效地提高了实际应用中文本情感分析的准确性。  相似文献   

8.
针对简单的循环神经网络(RNN)无法长时间记忆信息和单一的卷积神经网络(CNN)缺乏捕获文本上下文语义的能力的问题,为提升文本分类的准确率,提出一种门控循环单元(GRU)和胶囊特征融合的情感分析模型G-Caps。首先通过GRU捕捉文本的上下文全局特征,获得整体标量信息;其次在初始胶囊层将捕获的信息通过动态路由算法进行迭代,获取到表示文本整体属性的向量化的特征信息;最后在主胶囊部分进行特征间的组合以求获得更准确的文本属性,并根据各个特征的强度大小分析文本的情感极性。在基准数据集MR上进行的实验的结果表明,与初始卷积滤波器的CNN(CNN+INI)和批判学习的CNN(CL_CNN)方法相比,G-Caps的分类准确率分别提升了3.1个百分点和0.5个百分点。由此可见,G-Caps模型有效地提高了实际应用中文本情感分析的准确性。  相似文献   

9.
组织病理学图像是鉴别乳腺癌的黄金标准,所以对乳腺癌组织病理学图像的自动、精确的分类具有重要的临床应用价值。为了提高乳腺组织病理图像的分类准确率,从而满足临床应用的需求,提出了一种融合空间和通道特征的高精度乳腺癌分类方法。该方法使用颜色归一化来处理病理图像并使用数据增强扩充数据集,基于卷积神经网络(CNN)模型DenseNet和压缩和激励网络(SENet)融合病理图像的空间特征信息和通道特征信息,并根据压缩-激励(SE)模块的插入位置和数量,设计了三种不同的BCSCNet模型,分别为BCSCNetⅠ、BCSCNetⅡ、BCSCNetⅢ。在乳腺癌癌组织病理图像数据集(BreaKHis)上展开实验。通过实验对比,先是验证了对图像进行颜色归一化和数据增强能提高乳腺的分类准确率,然后发现所设计的三种乳腺癌分类模型中精度最高为BCSCNetⅢ。实验结果表明,BCSCNetⅢ的二分类准确率在99.05%~99.89%,比乳腺癌组织病理学图像分类网络(BHCNet)提升了0.42个百分点;其多分类的准确率在93.06%~95.72%,比BHCNet提升了2.41个百分点。证明了BCSCNet能准确地对乳腺癌组织病理图像进行分类,同时也为计算机辅助乳腺癌诊断提供了可靠的理论支撑。  相似文献   

10.
文本区域定位对复杂背景图像中的字符识别和检索具有重要意义。已有方法取得高的定位准确率和召回率,但效率较低,难以应用于实际的系统中。文中提出一种基于连通分量过滤和K-means聚类的文本区域定位方法。该方法首先对图像进行自适应分割,对字符颜色层提取连通分量。然后提取连通分量的特征,并用Adaboost分类器过滤非字符连通分量。最后,对候选的字符连通分量根据其位置和颜色层进行K-means聚类来定位文本区域。实验结果显示该方法具有与当前方法相当的准确率和召回率,同时具有较低的计算复杂度。  相似文献   

11.
针对传统长短时记忆网络(Long Short-Term Memory,LSTM)和卷积神经网络(Convolution Neural Network,CNN)在提取特征时无法体现每个词语在文本中重要程度的问题,提出一种基于LSTM-Attention与CNN混合模型的文本分类方法。使用CNN提取文本局部信息,进而整合出全文语义;用LSTM提取文本上下文特征,在LSTM之后加入注意力机制(Attention)提取输出信息的注意力分值;将LSTM-Attention的输出与CNN的输出进行融合,实现了有效提取文本特征的基础上将注意力集中在重要的词语上。在三个公开数据集上的实验结果表明,提出的模型相较于LSTM、CNN及其改进模型效果更好,可以有效提高文本分类的效果。  相似文献   

12.
提出了一种基于YUV颜色空间与支持向量机的复杂背景文本区域定位方法。算法将图像由RGB颜色空间转换至YUV颜色空间;利用最小二乘法对图像的色调直方图曲线进行拟合并确定最佳拟合阶次,利用拟合后的曲线对图像进行颜色分层聚类;对分解出的各颜色图层分别进行处理,得到备选文本连通域;提取备选文本连通域的小波纹理特征并利用SVM进行文本判别。实验结果表明,提出的方法定位准确率在65%以上,可以有效地实现复杂背景下图像文本区域的定位。  相似文献   

13.
基于CNN和LSTM的多通道注意力机制文本分类模型   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-Term Memory,LSTM)在提取特征时无法体现每个词语在文本中重要程度的问题,提出一种基于CNN和LSTM的多通道注意力机制文本分类模型。使用CNN和LSTM提取文本局部信息和上下文特征;用多通道注意力机制(Attention)提取CNN和LSTM输出信息的注意力分值;将多通道注意力机制的输出信息进行融合,实现了有效提取文本特征的基础上将注意力集中在重要的词语上。在三个公开数据集上的实验结果表明,提出的模型相较于CNN、LSTM及其改进模型效果更好,可以有效提高文本分类的效果。  相似文献   

14.
边缘与灰度检测相结合的场景图像文本定位   总被引:1,自引:0,他引:1       下载免费PDF全文
自然场景图像中包含大量的图像和文本信息,其文本字符能够提供重要的语义信息。利用计算机自动检测并识别自然场景中的文本信息,是模式识别和文字信息处理领域重要的研究内容。本文提出一种有效的从场景图像中定位文本的方法,其原理为:首先基于边缘检测进行文本区域粗定位,对定位到的区域进行灰度检测,来确定文本域中的字符位置,其后对所得到的检测区域进行筛选,去掉噪声区域,获取到目标文本域。实验结果表明,本文提出的方法对字体的大小、样式、颜色、以及排布方向具有较强的鲁棒性, 能够准确定位并提取自然场景下的文本信息。  相似文献   

15.
文本定位是图像中文本提取的前提与基础。针对场景图像中背景复杂和光照影响,提出一种由粗略到精确的文本定位算法。该算法首先在边缘图像上利用连通区域分析进行粗略定位得到文本候选区域,然后提取候选区域的方向梯度直方图特征和改进的局部二值模式特征进行分类,去除虚假文本达到精确定位。仿真实验结果表明,该算法能够有效地降低背景复杂与光照不均的影响,在场景图像中准确地定位文本区域。  相似文献   

16.
目前基于深度学习的肺癌辅助诊断方法存在无法准确定位病灶的缺陷。针对该问题,在现有U-net网络结构的基础上提出一种分两步走的基于改进U-net的肺癌识别方法。利用U-net获得病灶精确位置,通过CNN分类网络对病灶进行诊断,得到原始CT图像的检测结果。实验结果表明,该方法可以对肺部病灶进行较为精确的定位,分割效果的DSC相似度指数超过80%,对肺癌病灶进行分类诊断的准确率达到90.7%。  相似文献   

17.
刘长红  曾胜  张斌  陈勇 《计算机应用》2022,42(10):3018-3024
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号