首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
由于汉字拥有大量的字符,大多数对汉字的研究主要集中在汉字的识别和分类问题上,对于生成汉字的研究较少,尤其是在没有大量配对的汉字数据集的情况下.该模型使用内容和风格样式都不匹配的汉字数据集,将生成个性化手写汉字的过程公式化为一个从现有的标准印刷字体到个性化手写汉字样式映射的问题.在基于无监督学习的图像翻译模型的基础上,利...  相似文献   

2.
本文对多体字印刷汉字识别问题, 从文字输入、予处理、分割、特征抽取直至分类识别等几个方面进行了全面的讨论。并在此基础上, 建立了多体字印刷汉字识别系统。在该系统中, 充分考虑到多字体印刷汉字的特点, 使用了改进的笔划穿越特征, 汉字外部和内部面积等特征, 在克服噪声、字位移及异体同字的分类一致性等方面都取得了较好的效果。利用该识别软件和同一个字典, 可以识别混合在一篇文稿中的黑、宋两种字体的印别汉字。经多次试验, 平均识别率大于99%。  相似文献   

3.
目前,印刷汉字OCR技术已逐渐成熟,正走入实用化阶段,本文从实用角度出发,介绍了我们独立开发的一个多本多字号印刷汉字OCR系统,其中着重描述了多字体多字号的中西文混排文本的行,字切分技术,以及粗分类使用的“轮廓特征法”和细分类使用的“关键区域法”最后给出该系统的测试结果和达到的技术指标。  相似文献   

4.
脱机手写体汉字识别具有重要的理论意义和实践价值,目前在小字符集方面取得了比较好的效果.对大字符集来说,仍在进行研究.为了解决大字符集的手写体汉字识别问题,一般采用多层分类的方法.根据汉字的繁简和字型结构,构造了五级的二叉树SVM模型进行汉字集的粗分类,给出了模型的构造方法.在每级分类识别当中,采用不同的汉字特征和核函数,利用"one-against-rest"算法进行细分类识别.仿真实验表明,该方法能对手写体汉字分级分类识别,具有较高的识别率.  相似文献   

5.
多字体多字号印刷汉字识别方法的研究   总被引:2,自引:0,他引:2  
本文对多体多字号印别汉字识别的方法进行了研究, 本文提出的方法是首先对不同字号印刷 汉字进行归一化处理, 再抽取汉字四周笔端数特征、改进粗外围特征、笔划穿插次数特征和投影变换特征, 然后对组合特征进行多级分类识别。实验在IBM一PC AT 微型机上进行, 结果表明, 实验系统在识别实际印别文本时识别率大于98%。  相似文献   

6.
一个面向OA的印刷汉字OCR实用系统   总被引:1,自引:0,他引:1  
本文叙述一个采取以“统计模式识别”为主, 以“结构模式识别”方法为辅的识别技术路线实现的以办公室自动化(OA)为应用环境的一级印刷汉字文本识别系统,该系统从实用化角度出发, 采用页式文本图象扫描输入,输入后将图象文本分割成单个汉字, 并根据汉字的结构特点, 抽取了汉字的内层, 外层,局部等多个特征。识别采用多级分类方法。识别结果形成一个国标区位码文件,系统软件建立了一种与用户间的友好界面。该系统是在IBM PC/XT上实现的, 对印刷字样识别率>99%, 对各类实际的办公行文其统计识别率>95%, 识别速度为1-2字/秒。 前  相似文献   

7.
为使汉字草体计算机输入识别精简化,对汉字草书手写体,实施分类与亚分类等类似处理.参照人的汉字草书书写习惯,提出模糊识别汉字草体手写输入算法.结合各种具体编码约定,可使软件编写思路清晰、减少编程工作量、提高编程工作效率.预见该算法能使最终软件短小有力.该思路可类推地移植到汉字行书、正楷与其他字体,也可移植到英文或其他少数民族文字,但显然具体处理方法不同.  相似文献   

8.
一个高精度的简、繁体印刷体汉字文本识别系统   总被引:2,自引:0,他引:2  
本文叙述了一个基于改进的“汉字识别特征点方法”的高精度简、繁体印刷体汉字文本识别系统。引入特征点的方向属性, 明显地提高了“汉字识别特征点方法”的汉字识别率。文中阐述了该系统各主要环节的原理。经过百万汉字真实印刷文本的严格测试,本系统汉字识别率达到97.84%。对质量较高的真实印刷文本, 汉字识别率达到99%以上。  相似文献   

9.
《办公自动化》1997,(2):36-38
清华大学电子工程系,经过两年多的时间,研制成功了综合集成汉字识别系统,并于1997年3月22日通过国家教委的鉴定。 THOCR—97综合集成汉字识别系统(即多文种OCR以及联机和脱机手写汉字、数字识别的综合集成)是在过去十余年印刷汉字识别研究的基础上,除了在多文种、版面恢复、鲁棒性提高等印刷文本识别系统性能上有重大性突破外,还将联机手写汉字识别、脱机手写汉字文本识别、手写数字识别和手写数字统计报表  相似文献   

10.
脱机手写汉字识别是模式识别领域一项难题.支持向量机(SVM)也是近年来发展起来并成功的用于模式分类的新型机器学习方法,由训练集和核函数完全刻画.其中核函数的选择决定了支持向量机的性能,由于普通核函数各有其利弊,为了得到学习能力和泛化性能都很强的核函数来吸收手写汉字的变形,采用混合核函数,并运用于手写体汉字分类.实验结果表明混合核函数对手写体汉字的分类识别率要高于由普通单个核函数构造的支持向量机.  相似文献   

11.
Due to the important role of financial distress prediction (FDP) for enterprises, it is crucial to improve the accuracy of FDP model. In recent years, classifier ensemble has shown promising advantage over single classifier, but the study on classifier ensemble methods for FDP is still not comprehensive enough and leaves to be further explored. This paper constructs AdaBoost ensemble respectively with single attribute test (SAT) and decision tree (DT) for FDP, and empirically compares them with single DT and support vector machine (SVM). After designing the framework of AdaBoost ensemble method for FDP, the article describes AdaBoost algorithm as well as SAT and DT algorithm in detail, which is followed by the combination mechanism of multiple classifiers. On the initial sample of 692 Chinese listed companies and 41 financial ratios, 30 times of holdout experiments are carried out for FDP respectively one year, two years, and three years in advance. In terms of experimental results, AdaBoost ensemble with SAT outperforms AdaBoost ensemble with DT, single DT classifier and single SVM classifier. As a conclusion, the choice of weak learner is crucial to the performance of AdaBoost ensemble, and AdaBoost ensemble with SAT is more suitable for FDP of Chinese listed companies.  相似文献   

12.
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。  相似文献   

13.
基于决策支持向量机的中文网页分类器   总被引:10,自引:0,他引:10  
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。  相似文献   

14.
一种基于支持向量机的专业中文网页分类器   总被引:4,自引:1,他引:4  
文中提出了一种基于支持向量机的专业中文网页分类算法,利用支持向量机对网页进行二类分类,找出所需专业的中文网页;然后利用向量空间模型,对分类好的专业网页进行多类分类。在构造支持向量机的过程中,为了提高分类的召回率,采用了一种偏移因子。该算法只需要计算二类SVM分类器,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率和召回率。  相似文献   

15.
王强  关毅  王晓龙 《自动化学报》2007,33(8):809-816
提出一种应用文本特征的类别属性进行文本分类过程中的类别噪声裁剪 (Eliminating class noise, ECN) 的算法. 算法通过分析文本关键特征中蕴含的类别指示信息, 主动预测待分类文本可能归属的类别集, 从而减少参与决策的分类器数目, 降低分类延迟,提高分类精度. 在中、英文测试语料上的实验表明, 该算法的 F 值分别达到 0.76 与 0.93, 而且分类器运行效率也有明显提升, 整体性能较好. 进一步的实验表明,此算法的扩展性能较好, 结合一定的反馈学习策略, 分类性能可进一步提高, 其 F 值可达到 0.806 与 0.943.  相似文献   

16.
提出了一种先版面行分类后符号识别的印刷体数学公式提取策略。策略中两次应用K-L变换,分别完成版面行特征的降维和公式符号特征的提取,并采用免疫克隆选择算法优化支持向量机的训练参数,以构建出最优的版面行分类器和公式符号识别器。通过对300多份印刷体中文科技文档进行扫描识别测试,所得结果的公式提取率可达94%以上。  相似文献   

17.
手指语是用手指指式进行交流,一个指式代表一个汉语拼音字母,按照汉语拼音方案 拼成普通话.文中提出了一种基于多特征多分类器的汉语手指语识别方法,并利用该方法建造 了手指字母流识别系统.实验表明,该方法的识别效率明显优于基于单分类器的识别方法.  相似文献   

18.
随着基于机器学习的文本自动分类方法成为主流分类技术,基于机器学习的文本分类方法往往忽视了对规则分类方法的有效运用。该文将基于规则的分类思想和基于机器学习的分类方法有机地结合起来,把规则判别看作一个分量分类器,提出了一种辅以规则补充的双层文本分类模型和一种优化的分类规则学习算法。根据该方法设计并实现了一个基于规则和N-Gram统计分类相结合的双层分类器,进行了双层分类模型与单独的N-Gram分类模型的实验,结果表明辅以规则补充的双层分类器具有更好的分类性能。  相似文献   

19.
在文本分类研究中,集成学习是一种提高分类器性能的有效方法.Bagging算法是目前流行的一种集成学习算法.针对Bagging算法弱分类器具有相同权重问题,提出一种改进的Bagging算法.该方法通过对弱分类器分类结果进行可信度计算得到投票权重,应用于Attribute Bagging算法设计了一个中文文本自动分类器.采用kNN作为弱分类器基本模型对Sogou实验室提供的新闻集进行分类.实验表明该算法比Attribute Bagging有更好的分类精度.  相似文献   

20.
为研究不同品质白酒快速识别的电子鼻技术,利用自制的电子鼻采集四种白酒样品的气味数据,建立了BP神经网络分类模型。针对BP算法普遍存在的收敛速度慢、易陷入局部极小且网络参数需要人工设定的缺陷,提出一种将遗传算法的自适应全局优化搜索能力、小波分析的非线性逼近能力和BP算法自学习能力结合在一起的遗传小波神经网络白酒识别模型。仿真结果表明,与BP神经网络和小波神经网络相比,GA-WNN分类模型的收敛速度和分类准确率都得到了较大提高,可应用于白酒识别电子鼻。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号