首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
图像文本定位是图像中文本识别的关键步骤。介绍了文本图像的分类及特征,分析了图像文本定位常用算法的应用范围及优缺点,提出了文本定位算法的评价方法,阐述了文本定位的应用领域,并对今后文本定位的研究方向进行了分析。  相似文献   

2.
剽窃是目前学术界和教育界面临的普遍问题,成熟的商业化剽窃检测系统运行时间和经济代价高,不适合实时性、轻量级的学生作业等日常检测。对基于文本指纹的Winnowing剽窃检测算法进行扩展,在提取指纹的同时记录文本定位及其长度信息,给出了指纹提取、文本定位、剽窃指纹索引合并等算法,实现了剽窃文本的检测、定位、标记。实验结果及算法在应用系统中实际运行状况表明,算法的扩展对其性能影响不大,普通硬件配置条件下即可满足中小规模应用需求。扩展算法在原算法轻量级、高效率、可靠性和灵活度高等特点基础上,进一步拓展了Winnowing的功能,增强了原算法的适应性和应用价值。  相似文献   

3.
针对自然场景中标志文本提出一种文本定位算法.在彩色图像边缘提取的基础上,利用形态学文本定位获得备选文本区域,再用神经网络对备选文本区域进行分类,最后提取文本区域文字.该算法既考虑文本的形状边缘信息,又考虑文本的颜色信息,充分利用基于边缘的方法和基于神经网络学习的方法的优点.实验结果表明,提出的文本定位算法具有较高的准确率.  相似文献   

4.
目前在图像处理领域,自然场景下的文本定位算法是一项具有困难的挑战,EAST算法是近年来性能比较出色的自然场景文本定位算法之一,具有较高的召回率和识别率,但是仍存在感受野不够大,样本权重不合理的问题。因此对EAST算法进行改进,对EAST网络结构进行改进,加入ASPP网络,提高了感受野,对loss进行改进,优化了样本权重不合理的问题,提高了对文本的定位效果。实验结果表明,提出的算法在保持18 f/s的同时,在ICDAR 2015文本定位任务的召回率为78.43%,准确率为85.78%,F-score为81.94%,优于经典EAST算法。  相似文献   

5.
根据对自然场景图像分割后具有标志牌和背景明显分开等特点,提出了一种基于边框删除的标志牌文本提取算法,首先在二值化图像中采用基于边缘检测和投影算法对标志牌区域进行定位,然后采用边框删除算法提取标志牌文本.大量实验结果表明该方法能够准确定位并提取非规则的标志牌文本.  相似文献   

6.
视频图像中包含着许多重要的文字信息。图像和视频文本信息的提取包括文本检测、定位、跟踪、提取、增强和识别等几个部分。将文本的检测、定位与提取,作为文本区域提取的整体来讨论。以文本的检测算法为重点研究对象,提出了应用小波模极大值算法来解决视频图像中文本区域的检测。实验表明,小波模极大值算法所得到的文本区域与其它算法相比具有更好的评价指标。  相似文献   

7.
文本定位是图像中文本提取的前提与基础。针对场景图像中背景复杂和光照影响,提出一种由粗略到精确的文本定位算法。该算法首先在边缘图像上利用连通区域分析进行粗略定位得到文本候选区域,然后提取候选区域的方向梯度直方图特征和改进的局部二值模式特征进行分类,去除虚假文本达到精确定位。仿真实验结果表明,该算法能够有效地降低背景复杂与光照不均的影响,在场景图像中准确地定位文本区域。  相似文献   

8.
随着复杂图像中文本定位研究的不断增长,急需对现有方法进行总结,以便提出有效的新方法。本文详细介绍了复杂图像中的文本定位的难点,算法性能评价标准,并调研了现有的主要方法,将其分为三类方法:基于区域的定位方法,基于纹理的定位方法和基于边缘的定位方法。  相似文献   

9.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。  相似文献   

10.
提出了一种基于Adaboost算法的场景中文文本定位的新方法。首先利用边缘特征进行文本区域的检测,即对数字图像进行边缘提取、二值化处理,然后通过连通域分析去除明显的非字符连通域,并获得候选的文本区域。对场景中文文本区域进行分析,提取了场景中文文本的4类特征,并利用这4类特征经过分类与回归决策树构造了Adaboost强分类器。将候选文本区域送入强分类器,得到正确的文本区域。实验结果表明方法不仅对场景文本图像中字体、大小和颜色多变的文本具有很好的定位效果,而且具有很高的召回率和准确率。  相似文献   

11.
为了提高经典目标检测算法对自然场景文本定位的准确性,以及克服传统字符检测模型由于笔画间存在非连通性引起的汉字错误分割问题,提出了一种直接高效的自然场景汉字逼近定位方法。采用经典的EAST算法对场景图像中的文字进行检测。对初检的文字框进行调整使其更紧凑和更完整地包含文字,主要由提取各连通笔画成分、汉字分割和文字形状逼近三部分组成。矫正文字区域和识别文字内容。实验结果表明,提出的算法在保持平均帧率为3.1 帧/s的同时,对ICDAR2015、ICDAR2017-MLT和MSRA-TD500三个多方向数据集上文本定位任务中的F-score分别达到83.5%、72.8%和81.1%;消融实验验证了算法中各模块的有效性。在ICDAR2015数据集上的检测和识别综合评估任务中的性能也验证了该方法相比一些最新方法取得了更好的性能。  相似文献   

12.
梁正友  欧杰  俞闽敏 《计算机工程》2011,37(23):276-278
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准 确率。  相似文献   

13.
随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息,因此文本数据的管理和整合显得十分重要.文本分类是自然语言处理任务中的一项基础性工作,主要应用于舆情检测及新闻文本分类等领域,目的是对文本资源进行整理和归类.基于深度学习的文本分类,在对文本数据处理中,表现出...  相似文献   

14.
该文介绍了藏文文本分类技术的研究与进展。首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。  相似文献   

15.
文字识别是深度学习网络的重要应用领域,主流算法基于光学信息预测自然场景文字。然而在一些特定领域的文本对象上,额外的关键特征将会进一步提高文字识别算法的准确性。在安防监控领域,画面中的时间戳文本拥有格式规范、限定数值范围等特点,根据这一特点,对时间戳文本识别网络进行了研究,提出一种时间戳信息约束机制,融合文本语义约束信息和光学特征达到识别规范文本的效果,增强输出时间戳文本的格式规范性和数值合理性。在全匹配率、编辑距离等标准上全面超过基于光学特征的经典文字识别算法。  相似文献   

16.
文章以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类算法的特点,在此基础上提出k-NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k-NN算法进行再次分类,并充分利用NB的中间结果供k-NN剪枝时作参考.实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求.  相似文献   

17.
短文本由于其稀疏性、实时性、非标准性等特点,在文本特征选择和文本表示方面存在较多问题,从而影响文本分类精度。针对文本特征选择方面存在较高的特征维数灾难的问题,提出一种二阶段的文本特征选择算法。首先在互信息算法的基础上,引入平衡因子、频度、集中度、词性及词在文本中的位置等5个指标对互信息值进行计算,然后将排序结果靠前的特征集初始化进行遗传算法的训练从而得到最优特征集合。因为TFIDF在计算时针对的是整篇语料而没有考虑类间分布不均的情况,在计算IDF公式时引入方差,并将改进后的TFIDF公式对Word2Vec词向量进行加权表示文本。将改进算法应用在人工构建的百科用途短文本语料集中进行实验,实验结果表明改进的文本特征选择算法和文本表示算法对分类效果有2%~5%的提升。  相似文献   

18.
遗传算法的粗糙集理论在文本降维上的应用   总被引:1,自引:0,他引:1  
遗传算法作为一种有效的全局并行优化搜索工具,早被众多应用领域所接受。根据问题提出了相应的适应度函数,针对遗传算法和粗糙集理论两种方法各自的特点,将两种算法适当结合。还把结合后的方法和单一的粗糙集算法在文本分类效果上进行了对比。实验结果表明将遗传算法和粗糙集理论相结合的优化方法来应用到特征提取中,比单一的粗糙集算法,具有更好的降维效果,使得降维后的特征词更有利于文本数据的分类,大大优化了文本分类的效果。  相似文献   

19.
建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号