首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
提出了一种基于YUV颜色空间与支持向量机的复杂背景文本区域定位方法。算法将图像由RGB颜色空间转换至YUV颜色空间;利用最小二乘法对图像的色调直方图曲线进行拟合并确定最佳拟合阶次,利用拟合后的曲线对图像进行颜色分层聚类;对分解出的各颜色图层分别进行处理,得到备选文本连通域;提取备选文本连通域的小波纹理特征并利用SVM进行文本判别。实验结果表明,提出的方法定位准确率在65%以上,可以有效地实现复杂背景下图像文本区域的定位。  相似文献   

2.
提出了一种将垂直颜色边缘与分块多帧分析的文本定位与增强的方法。根据文本的垂直颜色边缘特征进行粗筛选,获得和跟踪文本候选区;然后通过分块多帧分析对文本进行增强。实验表明,该方法能有效去除复杂背景,提高视频文本的识别率。  相似文献   

3.
提出一种基于特定颜色分布区域搜索的文本定位方法,利用文字通常呈现为单一的颜色被不同的背景颜色包围的特点,以单一的颜色作为依据,搜索被包围的文本候选区域;然后,在区域合并与分离算法的基础上,利用不变矩特征和支持向量机(SVM)分类器实现候选区域的进一步筛选。与一般基于形状和纹理的方法相比,由于采用了文字颜色的空间分布特征,避开了文本与其他元素的形状和纹理特征交错问题,保证了算法适应性。基于精确区域搜索的不变矩特征提取,降低了分类器的训练难度,使分类器能很好地适应背景和文字尺寸变化以及部分遮挡等复杂情形。实验表明,该方法具有较好的复杂环境适应性和非常高的准确性。  相似文献   

4.
基于敏感点颜色聚类和行聚类筛选的文本提取   总被引:1,自引:0,他引:1  
针对现有的文本提取算法不能适应复杂背景变化和文字本身的形状变化问题,提出一种基于敏感点颜色两级聚类和文本行聚类筛选的方法。新方法利用人眼视觉对颜色大幅度变化更敏感的特点,以敏感点的主要颜色作为聚类分析的依据,克服了现有阈值方法和聚类方法受背景颜色变化影响较大的问题。在此基础上,以文本行的空间排列特征为依据进进行文本行筛选,以克服一般方法容易受文字形状和尺寸变化影响的缺点。实验表明,新方法对于背景的复杂变化和文字的形状尺寸变化都具有很好的适应性。  相似文献   

5.
一种基于条件随机场的复杂背景图像文本抽取方法   总被引:1,自引:0,他引:1  
针对复杂背景图像中的文本抽取问题,文中提出一种基于条件随机场的图像文本抽取方法.该方法在将各种特征有效结合起来的同时,考虑到上下文特征,从而能有效地从复杂图像中抽取文本信息.分析比较不同颜色空间、不同特征对文本抽取性能的影响.实验结果表明该方法的有效性.  相似文献   

6.
自动提取图像中的文本对图像视频检索具有重要意义.提出了一种基于颜色和笔画特征,应用无监督聚类方法进行复杂背景下的文本分割算法.首先在对文本行图像增强的基础上,应用颜色约减和直方图确定文本颜色.然后提取颜色和笔画特征,应用k-均值聚类算法分割出文本和背景像素.最后应用后处理优化分割结果.实验表明,该算法具有较好的分割效果.  相似文献   

7.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

8.
提出了一种将颜色边缘与SVM相结合的文本定位与提取的方法。首先根据文本的颜色边缘特征进行粗筛选,获得文本候选区;然后使用SVM分类器进行文本与非文本分类,实现文本区域定位与提取。实验表明,该方法取得了良好的效果。  相似文献   

9.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

10.
通过分析文本特征和背景,提出一种基于最大梯度差的叠加文本定位算法.首先获得横向和竖向两个方向的梯度图像,然后设定一个窗口扫描整个图像,分别计算窗口内的最大梯度差,得到两个方向的最大梯度差矩阵,然后分别通过自适应阈值算法找出疑似文本像素,再将两个方向的判决结果取交集,消除部分复杂背景造成的误判.接着利用数学形态学运算和先验知识剔除伪文本区.最后利用改进的穿越线算法精确定位文本.实验表明,本算法不仅对横向文本具有较高的查全率和较低的虚警率,并且对竖向文本也有较好的定位效果.  相似文献   

11.
为了更好地提高短文本语义相似度分析能力,提出了基于神经网络和组合语义的短文本语义相似度分析算法。利用神经网络构建词义表示模型,结合局部和全局上下文信息学习词语在实际语境下的表示;通过句法分析,得到文本的依存关系,并依此构建组合关系树,使用组合语义模型得到整个文本的语义表示;通过计算两个语义表示结果之间的相似性来计算文本的语义相似度。实验分析结果表明,该方法能够在一定程度上提高文本语义分析能力。  相似文献   

12.
近年来,篡改文本图像在互联网的广泛传播为文本图像安全带来严重威胁。然而,相应的篡改文本检测(TTD,tampered text detection)方法却未得到充分的探索。TTD任务旨在定位图像中所有文本区域,同时根据纹理的真实性判断文本区域是否被篡改。与一般的文本检测任务不同,TTD 任务需要进一步感知真实文本和篡改文本分类的细粒度信息。TTD 任务有两个主要挑战:一方面,由于真实文本和篡改文本的纹理具有较高的相似性,仅在空域(RGB)进行纹理特征学习的篡改文本检测方法不能很好地区分两类文本;另一方面,由于检测真实文本和篡改文本的难度不同,检测模型无法平衡两类文本的学习过程,从而造成两类文本检测精度的不平衡问题。相较于空域特征,文本纹理在频域中的不连续性能够帮助网络鉴别文本实例的真伪,根据上述依据,提出基于空域和频域(RGB and frequency)关系建模的篡改文本检测方法。采用空域和频域特征提取器分别提取空域和频域特征,通过引入频域信息增强网络对篡改纹理的鉴别能力;使用全局空频域关系模块建模不同文本实例的纹理真实性关系,通过参考同幅图像中其他文本实例的空频域特征来辅助判断当前文本实例的真伪性,从而平衡真实和篡改文本检测难度,解决检测精度不平衡问题;提出一个票据篡改文本图像数据集(Tampered-SROIE)来验证上述篡改文本检测方法的有效性,该数据集包含986张图像(626 张训练图像和 360 张测试图像)。该方法在 Tampered-SROIE 上的真实和篡改文本检测 F 值分别达到95.97%和 96.80%,同时降低检测精度不平衡性 1.13%。该方法从网络结构与检测策略的角度为篡改文本检测任务提供了新的解决方案,同时Tampered-SROIE为以后的篡改文本检测方法提供了评估基准。  相似文献   

13.
中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。  相似文献   

14.
书面语篇包含有独白语篇和对话语篇两种类型,而独白语篇和对话语篇具有不同的描述功能和用词特点,这对基于这些语篇的不同分析任务计算建模提出了新的挑战。基于现有两种语篇标注库,采用统计分析方法,对两类语篇的不同层次功能结构差异性进行了定量分析。基于三种不同类型语料文本中自动训练得到的不同词嵌入向量,以字向量的角度初步分析了两类语篇在用词方面的不同分布特点。在此基础上针对两类语篇的4个典型分析任务,研究了不同词嵌入对深度学习模型分析性能的影响效果。实验结果表明,不同的词嵌入在不同语篇分析任务的表现能力存在明显差异,从而验证了独白语篇和对话语篇的多层次差异。  相似文献   

15.
目的 目前基于卷积神经网络(CNN)的文本检测方法对自然场景中小尺度文本的定位非常困难。但自然场景图像中文本目标与其他目标存在很强的关联性,即自然场景中的文本通常伴随特定物体如广告牌、路牌等同时出现,基于此本文提出了一种顾及目标关联的级联CNN自然场景文本检测方法。方法 首先利用CNN检测文本目标及包含文本的关联物体目标,得到文本候选框及包含文本的关联物体候选框;再扩大包含文本的关联物体候选框区域,并从原始图像中裁剪,然后以该裁剪图像作为CNN的输入再精确检测文本候选框;最后采用非极大值抑制方法融合上述两步生成的文本候选框,得到文本检测结果。结果 本文方法能够有效地检测小尺度文本,在ICDAR-2013数据集上召回率、准确率和F值分别为0.817、0.880和0.847。结论 本文方法顾及自然场景中文本目标与包含文本的物体目标的强关联性,提高了自然场景图像中小尺度文本检测的召回率。  相似文献   

16.
基于向量空间模型的多主题Web文本分类方法*   总被引:2,自引:0,他引:2  
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法.该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中.实验证明,这种方法具有较好的精确度和召回率.  相似文献   

17.
文本自动分类是指将文本按照一定的策略归于一个或多个类别中的应用技术。文本分类是文本挖掘的基础,而特征选择又是文本分类中的核心。论文分析了以前特征选择方法中由于特征数目过多而造成分类时间和精度不高的缺点,提出了一种基于粗糙集的特征选择方法,其特点是以特征在文本分类中的重要性对特征进行选择。最后通过实验验证了该算法,证明该方法是可行的。  相似文献   

18.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

19.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号