共查询到17条相似文献,搜索用时 78 毫秒
1.
汉字型姓名(以下简称姓名)转换为首音码的技术在各个领域已得到广泛应用.由于汉字的首音重码较多,一个姓名经转换会产生多个编码,通常的做法是根据建立者的理解确定一种编码方式.当其它用户使用首音码进行记录定位时,往往不知建立者选择重码音为何音,造成记录定位的失败.另外,当姓名转换首音码时,出现重码时需要选择,大大地降低了转换速度.在GBK汉字库范围内,通过分析汉字读音重码的情况,建立汉字首音码库,设计姓名自动转换成首音码编码和使用首音码进行记录定位的算法. 相似文献
2.
在GBK汉字库范围内,通过分析姓氏汉字的读音和多音字用作名字时的习惯读音,去掉了在姓名中很少使用的读音,从而大幅度降低了首音重码;然后对仍有重码的汉字进行智能处理,进一步减少了重码选择;最后生成了首音转换码表,并设计转换算法,能够实现首音码的高效自动转换,使重码选择率从14.4%降为3.7%。 相似文献
3.
4.
5.
快速中文字符串模糊匹配算法 总被引:9,自引:3,他引:9
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。 相似文献
6.
汉字/字符串编辑距离和编辑路径的有效求解技术 总被引:2,自引:0,他引:2
邹旭楷 《计算机研究与发展》1996,33(8):574-580
本文提出了一种有效的编辑距离和编辑路径求解技术,该技术不但适合于单字符字符串而且也适合于双字节汉字串的编辑距离和编辑路径的计算。它首先通过一有效的字符串相似匹配算法计算出串编辑距离,而后通过简单的二进制字位运算正确计算出串(最短)编辑路径。文章也给出了本技术的完整实现算法并分析了算法的复杂性。 相似文献
7.
中文信息处理是我国信息化建设的基础性环节,而汉字输入方法和技术则是其中的关键。本文对目前我国主流的各种汉字输入法的最新版本进行评述,并讨论适宜于古籍整理的输入法的基本特点,提出未来的智能输入法应走双引擎、多字集、音形结合道路的设想。 相似文献
8.
引言随着数字化技术的飞速发展,嵌入式产品应用在我们生活中的各个方面。尤其是那些高性能、低成本、低功耗的RISC处理器已广泛地嵌入到家用电器、仪器仪表等生活所必需的产品之中。嵌入式产品将面向基层、面向大众,获得更广泛的应用。 相似文献
9.
试论汉字数字输入法评价 总被引:1,自引:0,他引:1
GB18031对如何科学评价数字输入法起到非常重要的指导作用。但是GB18031的部分性能指标在执行时存在一定的难度。数字输入法软件功能至今缺乏相应的国家标准。建立科学的数字输入法软件功能国家标准成为相当迫切的问题。本文讨论了GB18031中规定的易学性的可判定性,并对重码键选率的执行难点进行了定量分析。本文还分析了面向普及型汉字录入人员的数字输入法的特点,对进一步完善GB18031提出了具体的建议。本文还说明了建立数字输入法功能国家标准的必要性,对如何建立数字输入法功能国家标准进行了初步研究。 相似文献
10.
11.
该文研究了线性化朝鲜文字重构过程中存在的固有的歧义性问题,并讨论了歧义性消除方案。首先,研究了描述朝鲜文字结构的形式化方法,给出朝鲜文字组成的基本规则和相应的有限状态自动机;其次,给出文字线性化与重构的数学描述,论证了文字重构时存在歧义性的必要条件和充分条件,并分析了线性化文字序列歧义度的本质和歧义性发生的概率;最后,讨论了文字重构歧义性消除的方案,给出了基于基本字母的在线式朝鲜文字序列输入算法和核心步骤,通过仿真实验验证了该方案的可靠性和有效性。 相似文献
12.
针对当前汉字输入法以全拼音输入法为主,而目前键盘布局没有考虑到全拼音码中26个英文字母出现的概率的现实,利用VisualFoxPro6.0作基本工具,针对多方面的汉字内容进行统计,得出了汉字全拼音码中26个英文字母出现的概率分布,为全拼码输入法26个英文字母的键盘分布提供了依据。 相似文献
13.
基于语料库的高频最大交集型歧义字段考察 总被引:2,自引:0,他引:2
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。 相似文献
14.
《信息处理用GB13000.1字符集汉字部件规范》在输入法应用中的难点讨论 总被引:4,自引:1,他引:4
《信息处理用GB13000.1字符集汉字部件规范》对于规范汉字形码输入法具有非常重要的意义。然而,在实际运用上却存在着部件数量太大,部件定义难以操作,部件拆分组合不易掌握等难处。造成困难的原因主要有: (1) 基础部件主要靠列表来确定, (2) 部件强调按理切分和成字组合, (3) 过多依赖“组字能力”的判别, (4) 过分注重部件数量的限制。要走出“难”的困境,应该在现有规范的基础上根据汉字的形态特征制定出简便可靠的部件识别规则和切分规则。实验证明,这种方法是行之有效的。 相似文献
15.
《信息交换用藏文编码字符集 基本集》奠定了研究藏文信息处理技术的基础,非常重要,但随着藏文信息处理技术研究的深入,也逐渐发现了《基本集》没能反映藏文构件的基本特征,增加了研究有关藏文工作的难度,同时,在使用中还存在藏文编码歧义等缺陷。针对上述问题提出了增加三个上加字的编码到BMP中,使得藏文编码能正确地反应藏文的构件特征,还提出用“界定藏文编码的使用方法”来消除《基本集》应用中存在的歧义以及正确理解几个字符的属性等问题。 相似文献
16.
本文对汉字的字形描述进行了深入的研究, 并在此基拙土总结得出了汉字字形的关来稳定原理在汉字字形中, 笔划基元的方向、长度、位置等属性均是不穗定的, 而各笔划塞元之间的关来是稳定的。基元间关亲是反映字形本质的因素, 是汉字字形信巴的主体。关来穗定原理作为反应汉字字形本质的重要原理, 除了在研究汉宇字形方面有重要意义之外, 最重要的应用就是对汉字识别的研究提供方向性的指导。 相似文献
17.
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。 相似文献