首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
一种多字体印刷藏文字符识别方法   总被引:4,自引:0,他引:4  
王华  丁晓青 《计算机工程》2004,30(13):18-20
提出了一种完整的多字体印刷藏文字符识别方法:先提取输入字符的方向线素特征组成特征向量,然后采用两级分类策略判定字符类别。该方法在训练集和测试集上的识别率分别达到99.73%和99.44%,证明了其有效性。  相似文献   

2.
杨芳  田学东 《计算机工程与应用》2005,41(23):185-186,208
字体识别是印刷文档识别重构的重要组成部分,是目前识别技术的一个难题。以印刷文档的单体单字高识别率为基础,论文提出了一种基于篇章字体导引的汉字单字符字体识别方法,结合字体排版的规律性,使得字体识别速度和精度大大提高。以常用报纸、杂志正文文本为样本进行实验,字体识别率达到了99%。  相似文献   

3.
一种基于字词结合的汉字识别上下文处理新方法   总被引:6,自引:0,他引:6  
根据字、词信息之间的互补性,提出一种字、词结合的上下文处理方法.在单字识别的基础上,首先利用前向一后向搜索算法在较大的候选集上进行基于字bigram模型的上下文处理,在提高文本识别率的同时可提高候选集的效率;然后在较小的候选集上进行基于词bigram模型的上下文处理.该方法在兼顾处理速度的同时,可有效地提高文本识别率.脱机手写体汉字文本(约6.6万字)识别中的实验表明:经字bigram模型处理,文本识别率由处理前的81.58%提高至94.50%,文本前10选累计正确率由94.33%提高到98.25%;再经词bigram模型处理,文本识别率进一步提高至95.75%。  相似文献   

4.
为解决乌金印刷多字体藏文的文本识别以字丁识别为主、识别字体类别单一或较少、无法实现端到端的藏文文本行识别等问题,根据藏文文字的书写特点,在基于分割的文本检测方法DBNet上,对比在MobileNetV3和ResNet34两种骨干网络下CRNN、Rosetta和RARE这3种端到端的文本识别算法;提出一种将常用74个藏文字符作为端到端文字识别的转录字典策略,提出一个针对藏文文本识别的评价指标。实验结果表明,以ResNet34为骨干网络的CRNN文本识别方法在测试集上的综合表现最佳。  相似文献   

5.
藏文文本编码识别方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。  相似文献   

6.
基于笔划特征的单字符汉字字体识别   总被引:1,自引:0,他引:1  
在文档电子化的文本自动分析、理解和识别过程中,除了有关文档内容的字符识别外,还必须解决字体识别问题.字体识别不仅是版面分析、理解和恢复的重要依据,还有助于实现高性能字符识别系统.有别于目前基于多个字符组成的文本块的字体识别方法,本文提出了一种基于单个汉字字符的字体识别方法.在单个汉字字符上提取两类特征:笔划属性特征和笔划分布特征,分别构成两个分类器对单个汉字字符进行字体识别,并集成两个分类器的结果得到最终的识别结果.我们使用的笔划属性特征分类器是文本无关的,而笔划分布特征分类器是文本相关的,集成的分类器属于文本相关的字体识别分类器.我们在包含7种字体的样本集上进行了测试,测试结果显示基于单字的字体识别率达到94.48%.  相似文献   

7.
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。  相似文献   

8.
汉字具有丰富的字体类型,并且不同的字体在汉字结构上有显著的不同,现在的OCR技术侧重字的识别,而对字体识别的关注较少。提出文字相关的单字符字体识别方法,利用文字相关的先验信息及字体结构特征,对字体的相似性度量采用向量空间模型,并针对常用66款简体字进行实验,得到了较好的平均识别率。  相似文献   

9.
Gabor滤波角度对字体识别结果有重要影响,由于字体纹理与自然纹理的不同,现有的Gabor滤波器角度参数不适于提取字体纹理的有效特征。基于字体纹理的多变性,该文提出使用遗传算法通过对字体纹理的学习优化滤波角度参数,使之能够适应字体纹理的特点,以提高识别率。通过对常用的4种字体899块字体纹理样本的测试表明:遗传算法能够找到适合字体识别的角度参数,使用新的角度参数减少了识别时间,提高了字体识别率。  相似文献   

10.
高性能的多体印刷英文识别系统的实现   总被引:3,自引:0,他引:3  
提高低质量文本图像的识别率是现今文字识别研究的重要方向。文章对倾斜文本行的切分算法,断裂、粘连、交叠字符的切分算法以及后处理作了较为深入的研究,提出一些新的算法。该系统能够识别多达260种字体,包括黑体、斜体等字体,对训练集的识别率达到98.5%,并在实际应用中取得了良好效果。  相似文献   

11.
工程图纸自动输入字符识别的二维隐性马尔可夫模型方法   总被引:2,自引:0,他引:2  
在分析了语音识别的一维马尔可夫模型(1D-HMM)方法的基础上,采用二维马尔可夫模型(2D-HMM)方法识别工程图纸中的各类印刷体汉字、较规范的手写仿宋体汉字、英文及阿拉伯数字,适用于多字体、倾斜字符识别等情形,抗噪声能力强,取得了较高的识别率.  相似文献   

12.
基于BP神经网络的印刷字符识别系统   总被引:1,自引:0,他引:1  
光字符识别对人类是很简单的,但对计算机来说显得非常困难。自动字符识别在银行、航运、商业、通信、车牌识别等重要领域应用相当广泛。该文的主要任务是开发一个能识别机器印刷英文字符的系统,该系统采用基于反向传播的多层神经网络监督训练算法。通过系统进行多次测试和调试,不断优化网络参数并取得最佳结果,使得构建的新系统能够识别多种字体的字符。实验结果表明,该系统具有较高的识别率和优越的性能。  相似文献   

13.
Optical character recognition (OCR) refers to a process whereby printed documents are transformed into ASCII files for the purpose of compact storage, editing, fast retrieval, and other file manipulations through the use of a computer. The recognition stage of an OCR process is made difficult by added noise, image distortion, and the various character typefaces, sizes, and fonts that a document may have. In this study a neural network approach is introduced to perform high accuracy recognition on multi-size and multi-font characters; a novel centroid-dithering training process with a low noise-sensitivity normalization procedure is used to achieve high accuracy results. The study consists of two parts. The first part focuses on single size and single font characters, and a two-layered neural network is trained to recognize the full set of 94 ASCII character images in 12-pt Courier font. The second part trades accuracy for additional font and size capability, and a larger two-layered neural network is trained to recognize the full set of 94 ASCII character images for all point sizes from 8 to 32 and for 12 commonly used fonts. The performance of these two networks is evaluated based on a database of more than one million character images from the testing data set  相似文献   

14.
针对印刷体维吾尔文文字识别系统中的字符识别正确率较低这一难点问题,采用对字符图像进行横向扫描和纵向扫描生成行和列投影图, 结合三级分类,将目标字符与对应分类中的字符的双投影图逐一归一化并进行相关性均值计算的方法,取均值最大的字符作为最佳匹配识别结果,实现了对维文字符的识别。实验证明这种基于字符归一化双投影互相关性匹配识别算法方法抗干扰性强,简单易行,匹配精度高,使得印刷体维吾尔文字字符识别的正确率有了进一步提高。  相似文献   

15.
金属断口图像中标定符号信息是进一步计算图像对应实际物理空间距离的依据.标定符号通常为印刷体,所以准确定位是正确识别的前提和关键.对强噪声复杂背景下的金属断口图像标定符号的定位算法的研究,先对直线特征明显的标尺符号定位,其中对Radon变换进行分块改进,使快速性和准确性有了明显改善.字符定位利用符号的纹理特征进行数学形态学粗定位和图像边缘模板匹配精定位结合的方法,并根据标尺位置和长度等信息缩小搜索区域.实验结果表明,该算法的定位准确率达到94%.  相似文献   

16.
朝鲜文是一种由元音和辅音构成的字母文字。因此经常使用的一种朝鲜文识别方法是:从朝鲜文字符中分离出每一个字母,然后对这些字母进行识别,最后确定识别字符。本文结合结构分析法,通过对字符图像背景进行细化处理,找到字母之间的分割线分离出了每个字母,并且利用两层外围距离特征对这些字母进行了识别。在对4种经常使用的朝鲜文印刷字体进行初步实验的结果表明,字母分割正确率平均达到了97.4% ,而字母样本集识别率为99%以上。  相似文献   

17.
18.
On the recognition of printed characters of any font and size   总被引:2,自引:0,他引:2  
We describe the current state of a system that recognizes printed text of various fonts and sizes for the Roman alphabet. The system combines several techniques in order to improve the overall recognition rate. Thinning and shape extraction are performed directly on a graph of the run-length encoding of a binary image. The resulting strokes and other shapes are mapped, using a shape-clustering approach, into binary features which are then fed into a statistical Bayesian classifier. Large-scale trials have shown better than 97 percent top choice correct performance on mixtures of six dissimilar fonts, and over 99 percent on most single fonts, over a range of point sizes. Certain remaining confusion classes are disambiguated through contour analysis, and characters suspected of being merged are broken and reclassified. Finally, layout and linguistic context are applied. The results are illustrated by sample pages.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号