首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 390 毫秒
1.
针对目前光学字符识别技术(OCR)较难实现对中文文献中的数学公式进行识别,提出一种改进算法来解决印刷体内嵌数学公式的识别问题。通过添加新的特征值进行文本行分类,对内嵌公式行按字符逐一分割,再从分类后的文本行中依次提取出数学公式。实验结果表明,该算法具有识别率高、高效特点,与现有同类算法比较,在解决中文印刷体的数学公式识别问题方面的优势明显。  相似文献   

2.
中文科技文档中的数学表达式定位   总被引:1,自引:0,他引:1  
数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS) 对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、中文标点和英文字符,利用启发式规则合并剩余的数学符号而提取出内嵌表达式。实验表明,提出的表达式定位方法有很高的正确率。  相似文献   

3.
数学公式是科学和工程文档中不可或缺的一部分,而通过手写输入的方式来书写数学公式更为方便,用户使用起来也更自然。联机手写数学公式的识别由字符识别和公式结构分析两个主要部分组成。介绍了进行字符识别的主要过程,包括笔划搜集、预处理、字符识别等。通过对各阶段的研究和分析,设计和实现了字符的识别。  相似文献   

4.
数学公式字符的定位对整个印刷体中文文档识别系统而言是提高其识别率的重要内容之一。在介绍典型的数学公式字符定位技术的基础上,提出了一种新的两级公式字符定位方法。该方法是采用了印刷体中文文档中不同字符之间的投影分布特征的不同与汉字识别拒识公式字符的思想结合起来对公式字符进行定位。从实验结果可以看出该定位方法能够在公式字符定位的准确率和时间上有了较大的改进,为提高印刷体中文文档识别系统的识别率奠定了基础。  相似文献   

5.
基于神经网络的印刷体数学公式抽取方法*   总被引:1,自引:0,他引:1  
在分析中文印刷文档版式及字符特征的基础上,提出了一种将决策树与BP神经网络相结合的数学公式抽取方法。采用决策树方法将孤立公式从文档中抽取出来,采用BP神经网络方法定位内嵌公式。实验表明,该抽取方法对中文文档的公式抽取具有较高的正确率、容错率和速率。  相似文献   

6.
7.
数学公式识别系统:MatheReader   总被引:9,自引:0,他引:9  
靳简明  江红英  王庆人 《计算机学报》2006,29(11):2018-2026
数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.义章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定伉方面,抽取版式特征,采用Parzen分类器区分独立公式和普通文字行,在普通文字行内检测二维结构定位内嵌公式.在公式分析方面,定义十一种基本公式类型,并用产生式规则限定每类公式的唯一分解方法,提出先识别公式类型,然后分解为子表达式的公式分析方法.和已有系统比较,MatheReader的功能更加强大,能够处理的公式更加丰富.  相似文献   

8.
提出了一种先版面行分类后符号识别的印刷体数学公式提取策略。策略中两次应用K-L变换,分别完成版面行特征的降维和公式符号特征的提取,并采用免疫克隆选择算法优化支持向量机的训练参数,以构建出最优的版面行分类器和公式符号识别器。通过对300多份印刷体中文科技文档进行扫描识别测试,所得结果的公式提取率可达94%以上。  相似文献   

9.
介绍了一个印刷体数学公式识别系统,它由公式字符识别和结构分析两部分组成。在公式字符识别中,采用了一些适用于公式字符的特殊处理方法;在结构分析中,根据数学公式的结构布局,采用了一种将“自顶向下”和“自底向上”策略相结合的数学公式结构分析方法,实现了数学公式的重用,实验表明,这种方法能取得较好的识别效果。  相似文献   

10.
基于笔划特征的单字符汉字字体识别   总被引:1,自引:0,他引:1  
在文档电子化的文本自动分析、理解和识别过程中,除了有关文档内容的字符识别外,还必须解决字体识别问题.字体识别不仅是版面分析、理解和恢复的重要依据,还有助于实现高性能字符识别系统.有别于目前基于多个字符组成的文本块的字体识别方法,本文提出了一种基于单个汉字字符的字体识别方法.在单个汉字字符上提取两类特征:笔划属性特征和笔划分布特征,分别构成两个分类器对单个汉字字符进行字体识别,并集成两个分类器的结果得到最终的识别结果.我们使用的笔划属性特征分类器是文本无关的,而笔划分布特征分类器是文本相关的,集成的分类器属于文本相关的字体识别分类器.我们在包含7种字体的样本集上进行了测试,测试结果显示基于单字的字体识别率达到94.48%.  相似文献   

11.
In this paper, we propose an approach for understanding Mathematical Expressions (MEs) in a printed document. The system is divided into three main components: (i) detection of MEs in a document; (ii) recognition of the symbols present in each ME; and (iii) arrangement of the recognised symbols. The MEs printed in separate lines are detected without any character recognition whereas the embedded expressions (mixed with normal text) are detected by recognising the mathematical symbols in text. Some structural features of the MEs are used for both cases. The mathematical symbols are grouped into two classes for convenience. At first, the frequently occurring symbols are recognised by a stroke-feature analysis technique. Recognition of less frequent symbols involves a hybrid of feature-based and template-based technique. The bounding-box coordinates and the size information of the symbols help to determine the spatial relationships among the symbols. A set of predefined rules is used to form the meaningful symbol groups so that a logical arrangement of the mathematical expression can be obtained. Experiments conducted using this approach on a large number of documents show high accuracy.  相似文献   

12.
Difficulties in Kanji (Chinese character) recognition stem from its large character set (about 5000 characters) and the large number of strokes (up to about sixty) in each character.

The paper describes a preliminary approach to this Kanji recognition problem. In the present method, a handprinted Kanji character is coded into a symbol string using the binary relation between stroke and reference zone. Two symbol string recognition methods are proposed and investigated; the direct matching recognition (DMR) method and the unit structure recognition (USR) method.

The DMR method worked efficiently for characters which have up to five strokes. The USR method represents Kanji characters with a structural unit combination. This method worked efficiently for multi-stroke characters and greatly reduced dictionary update labor.  相似文献   


13.
Problems with local ambiguities in handwritten mathematical expressions (MEs) are often resolved at global level. Therefore, keeping local ambiguities is desirable for high accuracy, with a hope that they may be resolved by later global analyses. We propose a layered search framework for handwritten ME recognition. From given handwritten input strokes, ME structures are expanded by adding symbol hypotheses one by one, representing ambiguities of symbol identities and spatial relationships as numbers of branches in the expansion. We also propose a novel heuristic predicting how likely the set of remaining input strokes forms valid spatial relationships with the current partially interpreted structure. Further complexity reduction is achieved by delaying the symbol identity decision. The elegance of our approach is that the search result would be unchanged even if we prune out unpromising branches of the search. Therefore, we can examine a much larger number of local hypotheses with a limited amount of computing resource in making global level decisions. The experimental evaluation shows promising results of the efficiency of the proposed approach and the performance of our system, which results from the system's capacity to examine a large number of possibilities.  相似文献   

14.
翟乃强 《计算机应用》2010,30(4):980-981
传统的棋盘识别方式仅依赖于文字的识别,没有利用颜色信息。提出了一种基于颜色与文字识别协同工作的中国象棋棋盘识别方法。使用颜色识别维护一个棋子信息的状态矩阵,由每一步走棋后的颜色信息和走棋前的状态矩阵可以得到当前的棋盘信息,从而更新状态矩阵。运用象棋文字的识别作为颜色识别异常的补充。实验结果表明,该方法提高了棋盘识别的效率。  相似文献   

15.
文档识别中误切分字符拒识问题的研究   总被引:4,自引:1,他引:4  
自动文档识别中字切分算法如果仅仅依靠大小位置等度量信息,很容易产生误切分图像块,需要字符分类器给出一定的反馈才能准确切分,为此提出了一个新的拒识算法,目标是尽可能准确地拒识非法字符。该文分析了基于距离的分类器的置信度和广义置信度,在此基础上改进了常用的广义置信度映射函数,并设计了一个基于样本学习的拒识规则,提高了拒识算法的适应性。在中日韩三种文档样本上的实验表明,该文算法明显改善了系统性能,对于较低质量的印刷文本识别具有一定的普遍意义。  相似文献   

16.
王虎  吴海辉 《数字社区&智能家居》2007,1(2):1076-1077,1082
阐述了基于图像识别的信息填涂卡文档图像标记阅读机中的识别算法,并提出一种新的信息卡填写方式。对常用的字符识别方法以及特征提取方法进行了描述,并根据实际,采用基于最小距离分类器的模板匹配算法来对手写符号进行识别,结果表明算法能有效地解决信息填涂卡文档图像的手写符号识别问题。  相似文献   

17.
基于多候选的数学公式识别系统   总被引:2,自引:0,他引:2  
提出了一种基于多候选方法的数学公式识别系统.该系统主要包括公式图像预处理,多候选公式符号分割和多候选公式结构分析3个部分.在公式符号切分中,使用3次动态规划方法对公式图像进行多候选公式符号切分.在公式结构分析中,采用层次结构方法多候选分析公式符号间的结构关系,然后使用LaTex格式和MathType格式表示数学公式的识别结果.为了确定符号间的空间位置关系,建立了符号的空间关系模型.在3268个公式图像组成的测试集上取得了78.2%的公式分析正确率.  相似文献   

18.
非限定性手写汉字串的分割与识别是当前字符识别领域中的一个难点问题.针对手写日期的特点,提出了整词识别和定长汉字串分割识别相结合的组合识别方法.整词识别将字符串作为一个整体进行识别,无需复杂的字符串分割过程.在定长汉字串分割过程中,首先通过识别来预测汉字串的长度,然后通过投影和轮廓分析确定候选分割线,最后通过识别选取最优分割路径.这两种分割识别方法通过规则进行组合,大大提高了系统的性能.在真实票据图像上的实验表明了该方法的有效性,分割识别正确率达到了93.3%.  相似文献   

19.
多知识综合判决的字符切分算法   总被引:3,自引:0,他引:3  
高性能的印刷体文字识别系统中,在单字识别技术比较成熟的条件下,字符切分成为比较关键的环节。字符切分可以看作是对字符边界正确切分位置的一个决策过程,该决策需要同时考虑字符局部的识别情况和全局的上下文关系。该文通过对中日韩三国文字字符切分的研究,提出一种基于多知识综合判决的字符切分算法。该算法成功应用于AsiaOCR项目,对于东方文字中常见的混排英文问题也能很好处理。实验结果表明,和以前的算法相比,新算法在中日韩三国文字识别系统中的切分错误率平均下降50%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号