首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 406 毫秒
1.
基于汉字字形的西夏文字有6000字,西夏字的信息处理有利于西夏学的研究和西夏书籍的出版。在汉字、英文等文字的版面分析已有一些研究成果,古籍的版面分析也是一个研究热点。该文就西夏文的版面分析进行了系统的研究和实践。  相似文献   

2.
基于细化的西夏字笔划提取方法研究   总被引:1,自引:0,他引:1  
西夏文字字数多、字形复杂、形态相似的字多,受手工书写因素的影响,同一个字的模式变化很大。文章提出了一种西夏字笔划提取方法。  相似文献   

3.
西夏文字特征提取的研究   总被引:2,自引:0,他引:2  
字符的识别研究已取得了许多研究成果。西夏字的识别研究尚属一个待开发的新领域。西夏字识别的主要问题有:它属于表意文字,还是一个大字符集,具有极高的相似度(有许多结构相似的西夏字在西夏字符集中)。西夏文字的特征提取是整个西夏文字识别系统中最重要的一部分。该文针对西夏文字的特点,提出了能充分反映西夏文字特点的几种特征并加以提取;用这些特征可以有效地识别西夏字。  相似文献   

4.
随着国内外对西夏研究的不断深入,收藏于世界各地的大批西夏古籍文献通过影印方式陆续出版。如何将这些西夏古籍文献进行数字化、文本化则有着极其重要的意义。首先利用平滑和细化算法对西夏影印文献进行了预处理,然后利用Level set方法对影印文献中的西夏字进行了轮廓提取。Level Set演化函数在空间方向上采用了四阶紧致差分逼近式离散,计算过程中加入了窄带算法及全局优化方法。实验表明,算法在不增加计算时间的基础上可以得到较精确的西夏字轮廓。  相似文献   

5.
字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。  相似文献   

6.
该文提出了一种字形相似度计算方法,旨在解决汉字中相似字形(称作形似字)的识别和查找问题。首先,提出了汉字拆分方法,并构建了偏旁部首知识图谱;然后,基于图谱和汉字的结构特点,提出2CTransE模型,学习汉字实体语义信息的表示;最后,将输出的实体向量用于汉字字形的相似度计算,得到目标汉字的形似字候选集。实验结果表明,该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果,所形成的汉字部件组成库,为之后字形计算的相关研究提供了行之有效的数据集。同时,也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。  相似文献   

7.
该文分析了目前常用的甲骨文字在编码和输入方面的问题和不足,给出了一种甲骨文字形动态描述的方法。该方法在现代汉字的编码和书写规范基础上,使用有向笔段和笔元对甲骨文进行描述,用扩展的编码区域和外部描述字形库相结合的方式,解决了甲骨文字特别是异体字和没有识别的甲骨文字的输入和输出问题。  相似文献   

8.
维吾尔文字编辑方向与汉、英文编辑方向相反,字符变形、连笔复杂,OpenType字形技术的出现使维吾尔文字计算机处理看到了新的契机。本文在研究了OpenType字形技术的基础上,结合维吾尔文字结构特征及语法特征,提炼出维吾尔文字组合规律及变形显现替换规则,通过OpenType脚本描述维吾尔文文字属性,利用字模编辑软件与脚本编辑软件生成维吾尔文OpenType字库。  相似文献   

9.
维吾尔文OpenType字库设计与实现   总被引:2,自引:0,他引:2  
维吾尔文字编辑方向与汉、英文编辑方向相反,字符变形、连笔复杂,OpenType字形技术的出现使维吾尔文字计算机处理看到了新的契机。本文在研究了OpenType字形技术的基础上,结合维吾尔文字结构特征及语法特征,提炼出维吾尔文字组合规律及变形显现替换规则,通过OpenType脚本描述维吾尔文文字属性,利用字模编辑软件与脚本编辑软件生成维吾尔文OpenType字库。  相似文献   

10.
提出一种计算机系统字库中没有的集外字输入和显示的方法,以解决汉语言文字信息化发展的需要。该方法首先对一些字形进行矢量描述生成动态描述库,在集外字的输入过程中以动态描述库为桥梁,通过对动态描述库的操作,用户可以按照自己的意愿来设计和输出各种汉字,包括古文字、异体字,和错别字以及合体字等。该方法还有效地解决了由于使用轮廓字形描述而存在的字形动态编辑和字形变换的困难。  相似文献   

11.
随着国内外对西夏学研究的不断深入,收藏于世界各地的大批西夏古籍文献通过影印方式陆续出版。如何将这些西夏古籍文献数字化、文本化则有着极其重要的意义。该文采用弹性网格方法及线性判别分析(Linear Discriminant Analysis,LDA)方法对西夏文字识别进行了研究。首先对西夏影印文献进行预处理、细化,然后根据西夏文字笔画分布构造非均匀的弹性网格,将弹性网格分别作用于西夏文字的四个方向分量上,统计像素点在网格内的概率分布作为特征,最后使用LDA方法对提取的特征降维处理。对240类共9 600个西夏文字做4重交叉验证,平均识别率可达87.99%,实验表明该方法是有效的。  相似文献   

12.
文章提出了一种新的基于细化的汉字笔画抽取方法,并把笔画统计特征用于汉字的识别。实验结果表明,该方法可有效地抽取出汉字的笔画并可成功地用于汉字的识别。  相似文献   

13.
神经网络的西夏字识别技术研究   总被引:1,自引:0,他引:1  
字符识别是模式识别领域的一个传统课题,汉字和古文字的识别是中文信息处理领域的一个重要研究课题,汉字的识别技术有力地推动了计算机技术的广泛应用。本文对西夏文字的特点以及神经网络的西夏字识别技术的每个环节进行了详细的讨论。  相似文献   

14.
本文用误差估计方法,在给定误差限和置信概率的条件下,解出了汉字字频统计的抽样规模,解出了一种汉字字频统计的抽样规模,提出了一种汉字字频统计的新方法,该方法中所定义的汉字的统计频率具有统计学上的无偏性且较之以前方法具有更小的方差,因而是汉字的使用频率的一种更为精确的估计。  相似文献   

15.
给出一种基于点阵式液晶显示器下的汉字字模提取和显示方式。系统硬件资源无需额外开销,汉字数量可根据需要灵活确定。  相似文献   

16.
用于机器识别和学习的汉字表达式   总被引:8,自引:0,他引:8  
夏莹  张炘中 《自动化学报》1986,12(3):312-314
本文提出限制性手写汉字的形式化描述--汉字表达式,扩充了文法规则BNF范式的元 符号.利用汉字表达式,用PASCAL语言编写了限制性手写汉字的识别和学习程序.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号