首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
首先阐述了文本定位的基本流程,然后列举了现有的主要文本定位方法,分析了基于区域、纹理、边缘、角点的文本定位方法和机器学习的文本定位方法的优缺点,详细说明了文本区域验证和文本块区域合并的方法,最后总结了各种文本定位方法。  相似文献   

3.
首先阐述了文本定位的基本流程,然后列举了现有的主要文本定位方法,分析了基于区域、纹理、边缘、角点的文本定位方法和机器学习的文本定位方法的优缺点,详细说明了文本区域验证和文本块区域合并的方法,最后总结了各种文本定位方法。  相似文献   

4.
针对现有情感分析模型将卷积神经网络(CNN)和循环神经网络(RNN)建模分离的状况,论文提出了一种基于双向长短期记忆网络(Bi-LSTM)和CNN相结合并带有注意力机制(Attention)的文本分类模型。模型先获取上下文语义特征,再融合局部语义特征,同时对每一时刻的特征信息给予多个不同权重关注。实验表明,该模型可以有效地增强分类语义特征的捕获能力,比使用单一神经网络或者它们的任意两两组合,该模型不论在训练速度还是在预测准确度方面都有很好的改善。  相似文献   

5.
针对自然场景中中文文本的提取效率不足的问题,提出了一种基于ISODATA聚类和支持向量机(SVM)结合的自然场景中文文本提取算法。根据文本颜色和笔画的特征通过ISODATA聚类算法和局部分割的方法,分割出类文本区域;利用有效的几何特征,通过连通域分析去除部分非文本域;利用中心聚合方法使结构分离的中文文本合并后,将文本连接成行,提出行级特征用SVM分类出正确文本行及相应文本。实验结果表明,该算法对中文文本具有很好的提取效果和综合性能。  相似文献   

6.
目前在图像处理领域,自然场景下的文本定位算法是一项具有困难的挑战,EAST算法是近年来性能比较出色的自然场景文本定位算法之一,具有较高的召回率和识别率,但是仍存在感受野不够大,样本权重不合理的问题。因此对EAST算法进行改进,对EAST网络结构进行改进,加入ASPP网络,提高了感受野,对loss进行改进,优化了样本权重不合理的问题,提高了对文本的定位效果。实验结果表明,提出的算法在保持18 f/s的同时,在ICDAR 2015文本定位任务的召回率为78.43%,准确率为85.78%,F-score为81.94%,优于经典EAST算法。  相似文献   

7.
基于颜色散布分析的自然场景文本定位   总被引:1,自引:0,他引:1       下载免费PDF全文
针对现有的文本定位方法存在阈值选择困难、计算窗口尺寸敏感、文本特征与非文本特征交错难以区分等问题,提出一种文本定位方法。利用局部颜色散布分析,突出文字和背景的差异,使阈值选择范围更宽松。通过空间颜色散布分析,基于文本和背景颜色的空间分布实现文本的精确定位和分割,避开文本特征分类问题。实验结果表明,该方法适应性较好,准确性较高。  相似文献   

8.
从复杂的自然场景标志牌图像中提取和识别字符一直是数字图像处理领域的热点问题,目前的求解算法普遍存在提取文本精确度不高,提取率偏低,鲁棒性差等缺点。提出一种高效的文本提取算法,针对标志牌文本图像通常具有较复杂的自然背景等特征,首先对原始图片进行模糊化处理,然后进行Laplacian边缘提取,再对边缘图像进行非文本长边缘的删除,最后根据文本区域的特征进行边缘扫描和连通域分析实现标志牌文本的提取。通过对2003年国际自然场景文本识别竞赛(ICDAR’2003 Robust Reading Competition)中大量图片测试表明,该算法对背景的复杂度、文字语言、颜色、大小字体以及排列方向具有较强的鲁棒性,同时也具有较高的准确率(Precision)和提取率(Recall)。  相似文献   

9.
场景图像中的文本提供了重要的语义信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点,本文提出了一种有效的文本提取方法。首先对原始图片进行模糊化处理,然后进行Laplacian边缘提取和二值化,再形态学变化,最后进行连通域分析,实现了场景文本的提取。  相似文献   

10.
基于交叉覆盖算法的中文文本分类   总被引:1,自引:0,他引:1       下载免费PDF全文
基于向量空间模型的文本分类过程中遇到的最大问题就是以词为特征项的向量维数太大,需要进行特征选取,而交叉覆盖算法的输入集是n维欧式空间的点集,可以忽略维数的大小,从而最大程度上精确地表示文本,然后再进行分类,能够大大提高正确率。将交叉覆盖算法作为一种分类算法来进行中文文本分类,取得了不错的效果,在封闭测试中的准确率达到98.32%。  相似文献   

11.
Reading text in natural images has focused again the attention of many researchers during the last few years due to the increasing availability of cheap image-capturing devices in low-cost products like mobile phones. Therefore, as text can be found on any environment, the applicability of text-reading systems is really extensive. For this purpose, we present in this paper a robust method to read text in natural images. It is composed of two main separated stages. Firstly, text is located in the image using a set of simple and fast-to-compute features highly discriminative between character and non-character objects. They are based on geometric and gradient properties. The second part of the system carries out the recognition of the previously detected text. It uses gradient features to recognize single characters and Dynamic Programming (DP) to correct misspelled words. Experimental results obtained with different challenging datasets show that the proposed system exceeds state-of-the-art performance, both in terms of localization and recognition.  相似文献   

12.
表格文本图像版面中存在的大量的非表格框线对象,干扰正确提取表格框架结构.提出了一种基于字线分离的预处理算法.该算法在不提取表格框线的前提下,采用图像分块和连通域分析,实现字线分离.实验结果表明,该算法能够滤除大部分文字像素,准确有效突出表格文本图像中的框线信息,达到了预处理目的,是后续表格特征提取和识别的有效预备步骤.  相似文献   

13.
针对目前单纯依赖于分析图像内容或文本关键词的成人图像判定算法的不足,提出一种融合网络图像的相关文本特征与图像内容语义特征的成人图像判定算法。成人图像的特征信息可能存在于其图像内容及其相关文本如图像文件名、所在网页中。在视觉词袋模型的基础上,将文本分析得到的相关文本特征与图像视觉元素特征如纹理、局部形态等进行底层特征融合,并采用支持向量机分类器实现图像分类。实验结果表明,该算法具有较好的分类效果。  相似文献   

14.
针对文字图像中不规则干扰与文字粘连导致误识字的问题,提出了基于部分卷积的文字图像不规则干扰修复算法.研究分析了若干常见字体的文本图像特点,建立文字图像数据库,使其与干扰掩码数据库进行图像融合后对模型的修复效果进行评测,并对不同等级的修复情况进行分类测试.实验表明,所提模型在保证原有文字信息不损失的前提下,根据当前文字的...  相似文献   

15.
针对现有优秀的anchor-free文本检测方法只挖掘了文本框几何特性而没有考虑文本框位置特性且缺乏有效的过滤机制,提出了挖掘文本框位置特性的anchor-free自然场景文本检测方法.该方法以ResNet50作为卷积神经网络的主干网络,将多个不同尺寸的特征层融合后预测文本框的几何特性和位置特性,最后辅之以二层过滤机制得到最终的检测文本框.在公开的数据集ICDAR2013和ICDAR2011上F值分别达到了0.870和0.861,证明了该方法的有效性.  相似文献   

16.
中文文本分类中利用依存关系的实验研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了利用依存关系进行短文本分类,研究了利用依存关系进行短文本分类存在的四个关键问题。分别在长文本语料集和两个短文本语料集上,抽取具有依存关系的词对,并利用这些词对作为特征进行分类实验。实验结果表明:依存关系能够作为有效的特征进行文本分类,并能够改善文本分类的性能;单独把依存关系作为特征,不能提高短文本的分类性能;可以利用依存关系作为特征扩充的手段,增加短文本的特征,增强短文本的描述能力,进而进行有效的短文本分类。  相似文献   

17.
一种基于中心文档的KNN中文文本分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。  相似文献   

18.
短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。针对上述问题,提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN。该模型通过加入一种用拼音序列表征字符级输入的方法,构建字符级和词级的双输入矩阵,并在采样层使用k-max采样方法,增强模型特征的表达能力。利用豆瓣电影评论数据集对该模型进行识别精度评估,实验结果表明,与传统分类模型和标准卷积神经网络模型相比,该模型可有效提高短文本分类效果。  相似文献   

19.
基于聚类改进的KNN文本分类算法   总被引:3,自引:0,他引:3  
传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法,但是KNN算法在处理文本分类的过程中需要不断的计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好的进行文本分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号