摘 要: | 本文叙述一个采取以“统计模式识别”为主, 以“结构模式识别”方法为辅的识别技术路线实现的以办公室自动化(OA)为应用环境的一级印刷汉字文本识别系统,该系统从实用化角度出发, 采用页式文本图象扫描输入,输入后将图象文本分割成单个汉字, 并根据汉字的结构特点, 抽取了汉字的内层, 外层,局部等多个特征。识别采用多级分类方法。识别结果形成一个国标区位码文件,系统软件建立了一种与用户间的友好界面。该系统是在IBM PC/XT上实现的, 对印刷字样识别率>99%, 对各类实际的办公行文其统计识别率>95%, 识别速度为1-2字/秒。前
|