首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
关于手写汉字切分方法的思考   总被引:2,自引:0,他引:2  
汉字切分是汉字识别系统中必不可少的组成部分,但由于手写体汉字的书写多变而随意。极大地增加了汉字分割的难度。文中回顾了近十年来脱机手写体汉字分割的发展历程及在发展中涌现的一砦主要类型的切分方法,分析了每一类方法的优缺点及其包含的各个分支。最后,参考各种方法的优缺点,对今后的手写体汉字分割发展方向进行了展望。  相似文献   

2.
无约束手写体汉字切分方法综述   总被引:6,自引:0,他引:6  
高彦宇  杨扬 《计算机工程》2004,30(5):144-146
汉字切分是手写体汉字识别预处理中的一个难点,切分的正确与否直接关系到汉字识别的准确度。该义对目前无约束手写体汉字识别在行字切分上主要采用的方法作了具体介绍,闸述了各种方法的优缺点,最后根据目前的研究状况,指出今后研究中心需要注意的问题和研究的发展方向。  相似文献   

3.
用于粘连手写体汉字切分的二次寻点算法   总被引:2,自引:0,他引:2  
离线手写体汉字的切分是离线汉字识别的基础,其中以粘连字体的切分最难。文章提出了一种对粘连手写体汉字粘连位置精确定位的算法。该算法包含两次寻点过程,第一步寻找波谷点,对粘连字的分割位置进行粗定位;第二步寻找理想切分点,即结合波谷点与波谷邻近特征点的综合位置,最终给出切分线定位,以实现粘连汉字的切分。  相似文献   

4.
为了有效地进行手写体汉字的分割与识别,提出了一种基于假设-证实的离线手写体汉字分割与识别方法,即首先用一个假设分割边界的集合将手写汉字串图象分割成一个顺序排列的段序列;然后对顺序上连续的段被合并后,进行不相似度评价,其正确的分割由不相似度评价结果来证实.具体做法是,首先根据像素及笔划的分布特征,将汉字串分割成一个段序列,然后对分割与识别的决策由最优的相邻段合并后的不相似度评价结果得到.实验证明,该方法对于粘连、交叠、断裂和在书写方向上呈松散结构的汉字的分割与识别是非常有效的.  相似文献   

5.
基于组件合并的手写体汉字串分割   总被引:5,自引:0,他引:5  
吕岳  施鹏飞  张克华 《软件学报》2000,11(11):1554-1559
人们对孤立的手写体汉字字符的离线 识别做了大量的研究工作,而走向实用化的进展并不快.除了单字识别率不理想以外,从文本 中正确分割出单个汉字字符也是一个主要难题,因为字符的识别离不开正确分割.利用汉字的 基本结构特征,根据两个组件之间的上下、左右和包围关系,对组件进行合并形成完整的汉字 图像.对整个汉字字符串中组件的宽度和相邻组件的间距进行分析,有助于左右关系组件的合 并.实验结果表明,该方法对手写体汉字字符串具有理想的分割效果.  相似文献   

6.
本文讨论手写体汉字的基本分割问题以及解决该问题需做的一些工作,并提出了一种新的分割方法,用于在线和离线系统识别自由格式手写体汉字的句子。该方法通过调整空间阈值和最小均方差判别以实现基本分割和精细分割,从中可得到五种最可能的分割方案,抽取所有可能的分段并进行识别。由分段建立起栅格点,利用基于Viterbi的算法搜索到最可能的字符序列。本算法对自由格式连续手体汉字的处理具有很强的适应性和灵活性。对自然  相似文献   

7.
基于笔划包围盒的脱机手写体汉字分割算法   总被引:1,自引:3,他引:1  
汉字分割是脱机手写体汉字识别预处理的重要部分,改进了基于笔画包围盒的汉字分割算法。根据方向行程长度提取出汉字的笔画,对所得笔画建立包围盒。使用4种基本合并操作得到汉字的粗略的分割。最后使用动态规划的方法实现汉字的精细分割。实验结果表明,该算法较好地解决了汉字分割中的笔画粘连和重叠问题。  相似文献   

8.
一种无约束手写体数字串分割方法   总被引:11,自引:1,他引:11  
针对无约束手写体数字串中的连笔字符,本文提出以基于识别的分割方法为主,结合运用剖分方法和全局识别方法等多种分割策略的数字串分割方法。这种方法直接针对数字串分割,也可以运用到非数字字符串的分割中,其分割思想对连笔汉字的分割也具有一定指导意义。  相似文献   

9.
在离线手写体字符识别中,正确切分字符是提高识别性能的关键步骤之一。本文针对离线手写体汉字,提出了一种基于垂直投影法和前景一背景细化的切分算法。首先,本算法利用垂直投影法和背景细化的方法对非粘连字符进行切分,根据周边特性取得代价函数,利用动态规划法合并字块。其次,对于粘连字符,根据背景和前景细化的结果,选取一系列的特征点形成切分路径,然后利用代价函数来选择合适的路径。实验结果表明,提出的切分算法对手写体汉字字符有较好的切分效果。  相似文献   

10.
一种离线手写体汉字切分的自适应算法   总被引:2,自引:0,他引:2  
目前用于字符切分的算法主要有基于灰度直方图投影、字符连通域算法等,但这些算法不适用于相邻粘连汉字的切分。论文针对粘连汉字的切分,以邮件信函地址为对象,提出了一种离线手写体汉字切分的自适应算法。其基本步骤为:首先,基于灰值投影将手写汉字地址粗分为几个字段;其次,用傅立叶变换判断这些字段是否为粘连字段;再次,用汉字的字高和字宽的比值大小判断非粘连字是单字还是单字的部首;最后,以伸缩框法对粘连字分割,并对过分的部首进行合并。此算法的优势在于根据每个人书写的不同习惯,确定不同的伸缩框对汉字进行分割。  相似文献   

11.
当前主流的中文分词方法是基于字标注的传统机器学习的方法。但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且仅利用CPU训练模型时间长的缺点。针对以上问题,进行了研究提出基于LSTM(Long Short-Term Memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比,结果表明:基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理(NLP)中序列标注的任务。  相似文献   

12.
针对古代汉字文档的特点,提出了适合于古文档的列切分方法和字切分方法。提出的列切分方法直接对文档的笔画投影进行分析,采用一种基于分层投影过滤和变长间隙阈值的递归切分算法。该算法在列间隔较小、列与格线存在粘连、文档具有一定程度的倾斜的情况下,也能准确地抽取出列,尤其对短列的切分达到了较好的效果。提出的字切分方法分为两步,进行粗切分确定大致的切分位置,采用基于连通域分析与粘连点判断的方法做进一步的细切分。该算法对具有较多粘连和重叠汉字的列,也能较好地切分出完整的单字。实验结果表明,提出的方法用于古代汉字文档切分能够获得较好的效果。  相似文献   

13.
针对古籍古文献中部分汉字易发生粘连现象,提出一种古籍手写汉字多步分割方法.该方法继承了以往粗分割和细分割相结合的思想,首先采用投影进行粗分割,将手写汉字分为粘连字符和非粘连字符两类;然后针对粘连字符串抛弃常用的串行模式,直接采用粗分割的统计信息,设置初始分割路径,并基于最短分割路径的思想,在初始分割路径的局部邻域内基于最小权值搜索并修改分割路径,从而获得最佳的加权分割路径.实验证明该方法解决了字符分割不足和多处粘连字符的分割问题,有效的提高了分割的准确率,且算法的时间复杂度较低,算法效率较高.  相似文献   

14.
15.
多次Hash快速分词算法   总被引:4,自引:1,他引:4  
中文分词是中文信息处理的一个重要的组成部分.一些应用不仅要求有较高的准确率,速度也是至关重要的.通过对已有分词算法的分析,尤其是对快速分词算法的分析,提出了一种新的词典结构,并根据新的词典结构提出新的分词算法.该算法不仅实现对词首字的Hash查找,也实现了词的其它字的Hash查找.理论分析和实验结果表明,该算法在速度上优于现有的其它分词算法.  相似文献   

16.
中文自动分词是计算机中文信息处理中的难题。在对中文分词的现有技术研究的基础上,对反序最大匹配分词方法进行了较深入的研究探讨,在此基础上对中文分词的词典结构和分词算法做了一部分改进,设计了基于反序词典的中文分词系统。实验表明,该改进算法加快了中文的分词速度,使得中文分词系统的效率有了显著提高。  相似文献   

17.
一种手写体大写金额串的分割新方法   总被引:3,自引:0,他引:3  
手写体大写金额串的分割将直接影响识别的准确率。为了提高分割的准确率,同时保证较快的分割速度,本文采用了由粗分割和细分割组成的两步分割方法。重点介绍交叉字符和相连字符的分割方法。对于交叉的字符提出了加窗处理的中点连线分割方法,它较其它方法具有简单准确的优点;对于单笔相连的字符,先在细化字符图象上找到候选笔划的候选分割点,然后用本文提出的简明的评价准则来确定最优分割点,提高了粗分割的精度。上述方法应用于银行支票手写体大写金额的分割,取得了很好的分割效果。  相似文献   

18.
多知识综合判决的字符切分算法   总被引:3,自引:0,他引:3  
高性能的印刷体文字识别系统中,在单字识别技术比较成熟的条件下,字符切分成为比较关键的环节。字符切分可以看作是对字符边界正确切分位置的一个决策过程,该决策需要同时考虑字符局部的识别情况和全局的上下文关系。该文通过对中日韩三国文字字符切分的研究,提出一种基于多知识综合判决的字符切分算法。该算法成功应用于AsiaOCR项目,对于东方文字中常见的混排英文问题也能很好处理。实验结果表明,和以前的算法相比,新算法在中日韩三国文字识别系统中的切分错误率平均下降50%。  相似文献   

19.
基于中文文本分类的分词方法研究   总被引:13,自引:1,他引:13  
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号