首页 | 本学科首页   官方微博 | 高级检索  
     

鲁棒的多体印刷英文识别系统的实现
引用本文:伍振军,丁晓青.鲁棒的多体印刷英文识别系统的实现[J].计算机工程与应用,2001,37(20):120-122.
作者姓名:伍振军  丁晓青
作者单位:清华大学电子工程系,
基金项目:国家863高技术计划(编号:863-306-ZT03-03-1),国家自然科学基金(编号:69972024)
摘    要:文章讨论了设计一个实用的多体英文识别系统中解决的主要问题。该系统能识别多达260种字体,包括斜体和黑体等字体,对训练集的识别率达到99%,对实际文本测试的错误率比TH-OCR2000低56%。文章详细阐述了文本行字切分,特征提取和分类器设计,以及后处理所使用的常用技术,对各种技术的特点进行了分析和比较,并提出了一些新的技术。文章对于OCR系统的设计具有一定的指导意义。

关 键 词:光学字符识别  字符切分  特征提取  分类器设计  后处理
文章编号:1002-8331-(2001)20-0120-03
修稿时间:2001年4月1日

Implementation of Robust Multi-Font Printed English Character Recognition System
Wu,Zhenjun Ding Xiaoqing.Implementation of Robust Multi-Font Printed English Character Recognition System[J].Computer Engineering and Applications,2001,37(20):120-122.
Authors:Wu  Zhenjun Ding Xiaoqing
Abstract:This paper addresses the main problems in designing a multi-font English character recognition system.The system can recognize more than260kinds of fonts,including italic font and black font.The recognition ratio in training set is99%,and the error recognition ratio in real-world documents is56%lower than TH-OCR2000.Techniques of text line segmentation and character segmentation,feature extraction and classifier design,and post-processing are discussed in detail.Characteristics of techniques are analyzed and compared.Some novel techniques are provided in the paper.This paper can be used as guidance for OCR system design.
Keywords:OCR  Character Segmentation  Feature Extraction  Classifier Design  Post-Processing  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号