共查询到20条相似文献,搜索用时 153 毫秒
1.
多文种环境下汉字内码识别算法的研究 总被引:9,自引:4,他引:9
汉字内码向ISO/IEC 10646过渡是实现计算机用文字编码统一的必然趋势,但目前在一段时间内仍将存在多种汉字内码并存的情况,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中实现汉字内码自动识别的问题,并提供了多种汉字内码识别算法,包括基于内码分布、标点符号特征、字频特征和语义特征的识别算法等。在此基础上,本文对不同的识别算法进行分析和评估。在对目标样本的测试中,以上算法的识别率最高可以达到99.9%以上。 相似文献
2.
孙颖 《计算机光盘软件与应用》2013,(22):104-104,106
本文在分析目前人事档案编码现状及优缺点的情况下,提出一种利用汉字拼音和计算机技术相结合生成的人事档案编码方案:一种用姓名声母和汉字内码及员工工号相结合的人事档案汉语拼音声母内码混合编码方法,以期进一步提高人事档案编码的科学规范性。 相似文献
3.
汉字化是NLS(National Language Support)潮流中的重要组成部分。汉字化的中心任务是以汉字内码为基础, 树立汉字数据类型。本文提出了理想汉字内码的若干特征, 并以此为基础,对主要的实用汉子的内码进行了分析比较, 进而阐明了汉字内码与汉字数据类型的区别与联系, 指出了汉字数据类型与相应操作的匹配问题。
作者认为汉字内码的研究与规范化是当前汉字化的瓶颈问题和信息系统建立的当务之急。 相似文献
4.
本文在分析IVS,CCDOS,ZXDOS等汉字操作系统的内码结构的基础上,提出了执行相应汉字信息互换一种软件设计和实现。 相似文献
5.
6.
往往向大陆以外的地区发送中文电子邮件时,若对方没有中文平台看到的电文将是一堆乱码。即使有中文平台,若不是简体中文win95,也要进行‘内码转换’才能看到清楚的中文,否则看到的也是一堆乱码。 一般大陆使用的简体中文windows95平台的汉字内码是GB;台湾地区使用的繁体中文windows95平台的汉字内码是Big5;香港、澳门地区比较复杂,有用上述两种平台的,也有用英文windows95加挂中文之星、UCWIN、四通利方等中文平台的,其汉字内码是 相似文献
7.
8.
图像上显现汉字的最简洁可行办法归纳如下:①在中文操作系统下输入所需要的汉字信息;②利用函数读取汉字信息,取汉字内码并转换为国际码的区号(内码高字节减AOH)和位号(内码低字节减AOH);③根据区号、位号计算该汉字在中文字库中的记录指针位置,利用数组读出其点阵信息;④由汉字库点阵排列规则用描点语句在屏幕指定位置逐点绘出汉字。 相似文献
9.
单片机系统中的汉字显示 总被引:11,自引:2,他引:11
需要显示的汉字较多时,单片机系统中的汉字编码非常繁琐。本文介绍一种直接利用PC机的汉字内码作为单片机系统的汉字编码,以简化系统的设计。 相似文献
10.
本文给出了一种新型汉字内码结构, 它具有中西文兼容的处理功能,并且,保证不发生中西文混淆, 从而支持了汉字进入未作修改的西文软件。这种汉字内码已经在IBM PC/XT上的高兼容性汉字操作系统AC-DOS(Advanced Chinese Disk Operating System)上得到实现。在AC-DOS系统的支持下, 原西文系统支持的许多种软件如各种应用软件、各种编泽软件、行编辑、全屏幕编辑、数据库软件和计算机网络等, 不需作修改, 就能做到象处理西文一样处理汉字信息,同时, 仍保持西文的全部功能。 相似文献
11.
12.
由于汉字拥有大量的字符,大多数对汉字的研究主要集中在汉字的识别和分类问题上,对于生成汉字的研究较少,尤其是在没有大量配对的汉字数据集的情况下.该模型使用内容和风格样式都不匹配的汉字数据集,将生成个性化手写汉字的过程公式化为一个从现有的标准印刷字体到个性化手写汉字样式映射的问题.在基于无监督学习的图像翻译模型的基础上,利... 相似文献
13.
对常用字在教育资源电子文本中的覆盖率、使用率、字频统计算法进行了研究,并根据算法通过计算机语言开发常用字覆盖率统计分析系统。统计分析系统可以对文本中所使用的常用字进行统计分析,即可以统计常用字覆盖率、文本汉字数、常用字字频、常用字使用率等,并根据统计数据以饼形图的方式显示。为了了解常用字在文本中的覆盖率和使用情况,通过常用字覆盖率统计分析系统对一些电子文本进行了统计分析,并得出相应的结果。结果表明常用字在文本中的覆盖率和使用率相当高,即581个常用字在文本中的覆盖率平均在68.9%以上,1 000个常用字在文本中的覆盖率平均在81.4%以上,2 500个常用字在文本中的覆盖率平均在96%以上,并且常用字在不同统计对象文本中的使用频度也会有所不同。 相似文献
14.
15.
基于神经网络的手写体汉字识别是将汉字点阵图形转换成电信号,然后输入给数字信号处理器或计算机进行
处理,依据一定的分类算法在众多汉字字符中找出和它相互匹配的汉字字符。本文阐述了手写体汉字识别实验系统的设计目
标,分析了手写体汉字的预处理及其原理,详细介绍了手写汉字的特征提取。 相似文献
16.
无法直接输入计算机或现有的计算机系统字库没有的汉字称为生僻汉字或特殊字。对字库中已包含的生僻汉字,基于造字机理的皮氏输入法可以无重码输入GB18030-2005包括的70244个汉字。对字库中没有的汉字,按照智能造字原理,按照汉字结构和基元进行输入,并生成汉字图片。然后采用插件技术,将生僻字的图片插入到Microsoft Word文档中,以达到输入生僻汉字的目的,为在Microsoft Word文档中完全输入所有的汉字提供了一种方法。 相似文献
17.
目前书法汉字的生成研究在汉字生成过程中需要大量先验汉字组成信息,不仅对前期数据收集工作的要求较高,而且影响研究成果的扩展性.针对此问题,文中提出基于结构约束的条件堆叠生成对抗网络的书法汉字生成方法.将源汉字图像直接提取的汉字笔迹作为结构约束条件,通过条件堆叠生成对抗网络模型生成高质量的书法汉字.同时提出通过伪目标样本的... 相似文献
18.
19.
文中介绍了一种无笑序手写汉字在线识别方法,提出了基于汉字笔画数的编码方法。整个识别过程为两大部分,首先进行笔画分类,然后根据笔画序列码和汉字的结构完成入手 写何不在于识别。由于本系统要求可以无笔序地进行汉字输入,给汉分类带的来很大的困难,为此,在汉字结构匹配时,提出了一种结构特征搜索及排索算法,很好地解决了要求无笔序输入所带来的问题,实践证明,这种方法用于无笔序手汉字的在线识别是非常有效的。 相似文献
20.
手写体汉字识别是字符识别领域中的难点。为了使机器识别汉字适应于手写体汉字的变形等因素,基于人类认识汉字的容错机理,提出了一种用于机器识字的汉字容错编码方法,以提高手写体汉字识别率。该编码方法首先对横竖撇捺笔划形态给出了模糊化表示;然后定义了仿人拆字的字元集,并给出了易混淆笔划字元的多归类容错编码;接着给出了笔划字元的顺序判断规则和归结了36类简单常用字的部首子结构,并给出冗余的容错编码;进而建立了仿人构字的汉字编码规则和具有容错性的多模板字典,并对《新华字典》中收录的10000余个单字汉字进行了标准编码,重码率为0.48%;最后对HCCORG和NKIM手写体汉字库中的100个手写体汉字进行了仿真识别,识别正确率为96%。试验结果表明,这种编码方法可生成多模板字典,不仅对手写体汉字变形具有较好的容错性,且重码率和误识率较低。 相似文献