首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
特征提取是文字识别中很重要的环节。藏文字识别中特征提取的方法有很多,但由于藏文字的字型有很多种特点,可以探索出适合藏文识别的最优特征提取方法。该文简述了藏文字型的特征及印刷体藏文字识别原理,主要讨论了符合藏文字的一种特征提取方法——网络点阵图形投影法。  相似文献   

2.
西夏文字特征提取的研究   总被引:2,自引:0,他引:2  
字符的识别研究已取得了许多研究成果。西夏字的识别研究尚属一个待开发的新领域。西夏字识别的主要问题有:它属于表意文字,还是一个大字符集,具有极高的相似度(有许多结构相似的西夏字在西夏字符集中)。西夏文字的特征提取是整个西夏文字识别系统中最重要的一部分。该文针对西夏文字的特点,提出了能充分反映西夏文字特点的几种特征并加以提取;用这些特征可以有效地识别西夏字。  相似文献   

3.
赵栋材 《微处理机》2012,33(5):35-38,43
木刻藏文经书文中出现字符间粘连、断裂、遮挡现象严重,为识别带来极大的困难。在字符切分、特征提取等文字识别方法基础上,增加了基于BP网络的训练方法,通过对大量的木刻藏文经书字符的训练,修正了数据,收敛了识别结果。实验结果显示,此方法有助于提高木刻藏文经书的文字识别正确率。  相似文献   

4.
为了使得藏文字符特征向量维数少、存储空间小、运算速度快及区分相似字能力高,基于图像投影法提出一种基于极坐标投影变换的脱机手写藏文字符特征提取方法。将脱机手写藏文字符图像进行预处理后得到大小、位置统一的二值图像,并定位二值图像的极点;求出二值图像中所有值为1的点对应的极坐标后将其进行投影变换得到投影向量,即作为脱机手写藏文字符的特征向量。使用KNN分类器对30 000个脱机手写藏文字进行实验,其中80%的样本作为训练数据,20%的样本作为测试数据,识别率达到了96.32%。结果表明该方法的有效性、计算简单及达到了较好的识别效果。  相似文献   

5.
印刷体藏文文字识别技术研究   总被引:2,自引:0,他引:2       下载免费PDF全文
藏文字因其结构的特殊性,在应用传统文字识别方法进行识别时正确识别率较低,识别效果较差。在深入分析以印刷体藏文文字特征的基础上,提出了一系列可以在干扰情况下提高识别率的方法,包括局部自适应二值化算法、基于连通域的切分、基于网格的模糊笔划特征提取等。实验结果说明,这些方法可提高印刷体藏文文字识别系统的正确识别率和抗干扰能力。  相似文献   

6.
文字识别技术在自动翻译、文件数字化和场景文字识别等应用中有着非常广泛的应用。现有的文字识别方法在处理复杂情景或低质量图像时,还有很大提高空间。因此,文章改进了EfficientNet架构,以便应对各种实际应用场景,既保证了识别率,又保持了高效性。  相似文献   

7.
在分析现有的藏文字丁特征提取方法--图像投影法和方向线素法的基础上,运用分形矩理论,提出一种基于分形矩的藏文字符特征提取方法,用该方法提取的特征有效反映藏文字丁的局部和全局特征,减少图像中像素位置变化给识别部分带来的负面影响,该方法在一定程度上克服藏文字丁极多而造成的误识率高的缺点,并且解决由于特征向量维数较多造成的运算速度慢的问题,针对592个类别的印刷体藏文字丁样本的对比实验表明,本文方法的识别率较现有的特征提取方法平均增加了2.48%,证明此方法具有较好的特征提取性能.  相似文献   

8.
针对行文较工整的甲骨拓片,通过对现有的粗网格特征提取算法与点特征提取算法的研究与改进,提出一种新的网格点特征提取算法。该算法将点特征引入到粗网格特征中,把绝对地址变成相对地址,将点特征网格化,并将位置关系融入特征向量。使这两种算法互为补充,相得益彰,大大提高了识别效果。网格点特征提取算法,对行文工整的现代汉字的手写体文书的识别效果也很好。  相似文献   

9.
藏文乌梅体场景文字识别是文字识别领域的一个难题,使用传统的文字识别方法人工构件难度很大。文章使用深度学习方法进行研究,使用卷积神经网络(Convolutional Neural Network,CNN)提取图像信息,采用注意力与循环神经网络(Recurrent Neural Network,RNN)结合的方式进行解码。实验结果证明,模型对于藏文乌梅体场景文字能够有效识别F1值达到86.76%。  相似文献   

10.
基于遗传算法和BP网络的文字识别方法   总被引:6,自引:0,他引:6  
苗琦龙  栾新 《计算机应用》2005,25(Z1):330-332
将基于遗传的BP神经网络算法用于文字识别算法结合了遗传算法和BP网络的优点.先采用遗传学习算法进行全局寻优、再利用BP算法进行精确训练、优化BP(Back Propagation)神经网络权重学习和训练的神经网络文字识别算法.实验结果表明该算法完全达到了文字识别要求,识别率达到了98%.并且在识别速度上也明显优于传统的BP神经网络及其他改进算法,具有精确性、收敛性和识别速度快等特点.  相似文献   

11.
互联网上,文本非法复制和盗版现象日益严重,因此迫切需要有效的文本版权保护方案.借助于特征提取方法和文本分类技术,针对具有版权争议的文字作品,提出了一种基于文本特征提取的作者识别方法.实验结果表明,提出的算法能够区别出不同作者的文字作品,能有效地把一个具有争议的文字作品进行分类,并识别出作者.因此该方法可以辅助解决争议作品(特别是著名作者的争议作品)的版权纠纷,打击盗版,维护诚信.  相似文献   

12.
铁路文本分类对于我国铁路事业的发展具有重要的实用意义.现有的中文文本特征提取方法依赖于事先对文本的分词处理,然而面向铁路文本数据进行分词的准确率不高,导致铁路文本的特征提取存在语义理解不充分、特征获取不全面等局限性.针对以上问题,提出了一种字符级特征提取方法CLW2V(Character Level-Word2Vec)...  相似文献   

13.
一种基于正交投影的特征抽取方法   总被引:2,自引:0,他引:2  
本文结合Fisher鉴别准则给出了一组正交投影矢量,并引入了一种度量投影矢量相关性的简捷方法,与经典的Foley-Sammon鉴别分别法相比,所提出的正交投影法具有较强的消除样本特征之间相关性的能力和良好的鉴别能力,最后,在CENPARMI手写体阿拉伯数字库的试验结果证实了该特征抽取方法明显优于Foley-Sammon鉴别分析法。  相似文献   

14.
提出了一种基于投影归一化的字符特征提取方法,该方法首先对字符图像进行横向扫描和纵向扫描生成行投影向量和列投影向量,然后通过对行投影向量和列投影向量进行维数和密度的归一化处理生成双投影归一化向量作为特征向量。聚类和识别实验表明双投影归一化向量不仅计算简单,而且对同种字体不同字号的英文字符识别可达到较好的结果。  相似文献   

15.
文本分类中的特征抽取   总被引:52,自引:3,他引:52  
特征提取是用机器学习方法进行文本分类的重点和难点。文中比较了目前几种最常用的特征抽取方法,提出了一种改进型的互信息特征抽取方法,并在构建的实验系统中比较了这几种特征抽取方法,发现改进的特征抽取方法是有效可行的。  相似文献   

16.
基于柔性匹配的中文文本特征提取方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对含有变形关键词的不良信息过滤问题,提出一种基于柔性匹配的中文文本特征信息提取方法。该方法采用柔性匹配技术识别和提取变形关键词,改进向量空间模型中特征项权重的计算方法,对具有变形形式的关键词赋予较高权重,从而提高特征信息的提取效率。实验结果表明,该方法可在保证过滤准确率的前提下,获得较高的召回率。  相似文献   

17.
特征的提取是文本分类中的关键技术,该文着重介绍了文本特征提取方法中的文档频率(DF)、信息增益(IG)、x2统计(CHI),该文通过实验对于以上三种特征提取方法进行了研究和比较,该结论对于今后研究特征选择方法对于英文作文自动评分的影响奠定了理论和实践基础。  相似文献   

18.
熊忠阳  蔺显强  张玉芳  牙漫 《计算机工程》2013,(12):200-203,210
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。  相似文献   

19.
该文介绍了web文本挖掘的概念和一般处理过程,着重就web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究.同时对不同方法进行了初步比较。  相似文献   

20.
该文介绍了Web文本挖掘的概念和一般处理过程,着重就Web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究,同时对不同方法进行了初步比较。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号