首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
汉字型姓名(以下简称姓名)转换为首音码的技术在各个领域已得到广泛应用.由于汉字的首音重码较多,一个姓名经转换会产生多个编码,通常的做法是根据建立者的理解确定一种编码方式.当其它用户使用首音码进行记录定位时,往往不知建立者选择重码音为何音,造成记录定位的失败.另外,当姓名转换首音码时,出现重码时需要选择,大大地降低了转换速度.在GBK汉字库范围内,通过分析汉字读音重码的情况,建立汉字首音码库,设计姓名自动转换成首音码编码和使用首音码进行记录定位的算法.  相似文献   

2.
涂金德  李永平 《计算机应用》2005,25(7):1716-1718
在GBK汉字库范围内,通过分析姓氏汉字的读音和多音字用作名字时的习惯读音,去掉了在姓名中很少使用的读音,从而大幅度降低了首音重码;然后对仍有重码的汉字进行智能处理,进一步减少了重码选择;最后生成了首音转换码表,并设计转换算法,能够实现首音码的高效自动转换,使重码选择率从14.4%降为3.7%。  相似文献   

3.
在万“码”奔腾的今天,“天字码”作为第三代汉字输入方案,在编码时将形引入音码之中,使重码率高低与编码的难易性矛盾得到很好的解决。汉字输入方法从“单字为主”发展到"词语为主","以词定字"解决了单字词的同音重码问题;  相似文献   

4.
基于音码相似度的拼音模糊查询算法   总被引:1,自引:0,他引:1  
论述了拼音模糊检索技术在信息管理和网络信息搜索系统中的必要性,描述了基于音码相似度的语言模糊查询算法及实现同音字和近音字检索算法,在中文信息检索中有很好的应用价值。并结合实例,在获得同音字数据库基础上,提出了基于音码相似度阈值的模糊查询算法,给出了通过拼音数据库实现中文全拼和首字母简拼检索数据库字段的实现方案,从查全率和查准率两个方面对算法的检索效果进行了评价,同时分析了音码相似度阈值对查全率和查准率的影响。  相似文献   

5.
快速中文字符串模糊匹配算法   总被引:9,自引:3,他引:9  
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。  相似文献   

6.
在图形状态下开发应用程序时,必须处理的技术问题是如何显示几个汉字。解决这一问题的最佳方法是利用索引格式化小字库技术,所谓索引格式化小字库技术就是将所需要的汉字字模数据按照一定的调用格式(如C语言数据格式、汇编语言数据格式以及二进制数据格式等等)存贮到特定的文件中,在应用程序中包含或读取这个特定文件来实现特  相似文献   

7.
本文介绍了一种简单实用的字符串打印方法,使得当需要打印的字符串中包含汉字信息,且报表栏的长度一定时,能够对字符串进行正常切割,所切的字符串不至于将一个汉字一分为二。  相似文献   

8.
王卫 《微型计算机》1996,16(2):50-51
该文给出了一个将点阵字模转换成矢量字模的方法及其C语言实现程序。该方法对在图形程序中显示汉字字符串以及对绘图仪输出图形进行汉字注释,具有一定实用价值。  相似文献   

9.
一、前言目前微型计算机在科学计算、企事业管理、办公室自动化等领域的应用日趋广泛,人们对于在微型计算机上配置汉字信息处理系统的要求越来越迫切。尤其是在企业经济管理、医疗诊断、工资管理、档案管理、情报资料检索等方面建立的微机系统,为了广泛的应用,更需要配备实用的汉字系统。因此,建立实用的汉字信息处理系统是急待解决的一个问题,也是进一步推广应用微型机的一个极其重要的方面。汉字系统的建立,需要解决汉字输入编码及输入设备,微型机内汉字的编码形式及转换方式、汉字的存贮及字库的建立,汉字的输出等问题。目前,以上问题都基本解决  相似文献   

10.
利用汉字FoxBASE+开发数据库管理应用系统,当字符串太长,在屏幕上一行显示不下时,经常需要截断,分成若干行显示,而在字符串截取过程中,又经常会遇到出现中文半个字的问题,这给长字符串的显示、输入、修改等操作造成很大的不便。如何才能消除半个字的问题呢?笔者在长期的实践中发现,汉字的两个字节的ASCfi码值都大于127,而其它的可打印的英文字符的ASCH码值均小于127o利用这一特点,设置一个标志,当出现半个字时,标志为假;当无半个字时,标志为真。在字符串截取过程中,当长度剩下一位,还需要截取并且标志为真时,就在子…  相似文献   

11.
“不完全拼音码”指在声、韵、调等方面有所省略的拼音输入码。输入法软件在处理不完全拼音码的时候,应该充分利用代码提供的信息,为用户检索出所有符合条件的汉字词语。文章指出并分析了微软最新版的MSPY2003和新注音输入法v6.5在处理声调缺省,韵母缺省以及音节歧义切分等问题时的一些欠妥之处,并根据语言学和辞书知识提出基于拼音码模板的解决策略。实验结果证明,这种方法是相当有效的。  相似文献   

12.
基于多种知识源的汉语自动分词   总被引:5,自引:0,他引:5  
提出一种汉语分词方法。与其它的如利用单一统计特性的统计方法或者纯规则方法不同,该方法利用字、词、上下文、语法及语义等多种知识源对汉字串中每一隔点的切分可能性进行考察,并在无法彻底消歧的情况下通过模糊综合得出最可能的切分结果。用户可以根据需要修改系统以适应不同文本的特征,并能接收前后词法、语法、语义分析阶段的反馈。因此,该方法具有准确率高、灵活、健壮、回溯迅速的特点。  相似文献   

13.
讨论音序输入法中的汉语拼音流,实现当前音序输入法中拼音流的切分算法,包括对含中R/N/G拼音流切分难点的解决.拼音流的切分是整句输入的基础,给出算法具体实现所需的数据结构(汉语拼音的声母表与有效的汉语拼音表和音节树),经验证,该算法成功地实现了对拼音流的自动切分.  相似文献   

14.
提出了一种用于机器识字的汉字容错编码方法。该编码采用统计粗分类和结构细分类相结合的方法,定义了易于机器识别的汉字结构字元集,给出了笔划字元的顺序判断规则。构建了37类子结构的编码和冗余容错编码,建立了仿人构字的汉字编码规则和字典。仿真实验表明,这种编码方法易于机器识别,具有容错性,且拒识和误识率较低。  相似文献   

15.
The growing occurrence of computer software piracy has led to a new area of research, i.e., the development of methods to be used to supply evidence that software was copied.One method to argue that computer source code was copied is to examine the occurence of strings of binary code (ones and zeroes) between the alleged parent and pirate codes. Given the occurence of a lengthy identical string between codes, and that string represents a development of executable code (versus data blocks that can be argued to exist in only one fashion), a model of the probability of repetition of such a string of code occurring between so-called independently derived source codes can be formulated. The developed probabilistic results can also be approximately by a simpler formula derived herein. A computer program and example computations are presented.  相似文献   

16.
汉英机器翻译源语分析中词的识别   总被引:1,自引:1,他引:0  
汉英MT源语分析首先遇到的问题是词的识别。汉语中的“词”没有明确的定义,语素和词、词和词组、词组和句子,相互之间也没有清楚的界限。按照先分词、再句法分析的办法,会在分词时遇到构词问题和句法问题相互交错的困难。作者认为,可以把字作为源语句法分析的起始点,使词和词组的识别与句法分析同时进行。本文叙述了这种观点及其实现过程,并且以处理离合词为例,说明了识别的基本方法。  相似文献   

17.
非限定性手写汉字串的分割与识别是当前字符识别领域中的一个难点问题.针对手写日期的特点,提出了整词识别和定长汉字串分割识别相结合的组合识别方法.整词识别将字符串作为一个整体进行识别,无需复杂的字符串分割过程.在定长汉字串分割过程中,首先通过识别来预测汉字串的长度,然后通过投影和轮廓分析确定候选分割线,最后通过识别选取最优分割路径.这两种分割识别方法通过规则进行组合,大大提高了系统的性能.在真实票据图像上的实验表明了该方法的有效性,分割识别正确率达到了93.3%.  相似文献   

18.
Most complete binary prefix codes have a synchronizing string, that is a string that resynchronizes the decoder regardless of its previous state. This work presents an upper bound on the length of the shortest synchronizing string for such codes. Two classes of codes with a long shortest synchronizing string are presented. It is known that finding a synchronizing string for a code is equivalent to finding a synchronizing string of some finite automaton. The Černý conjecture for this class of automata is discussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号