首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
电子词典是在机器翻译系统中包含的信息量最大的一个部件,电子词典包的质量和容量直接限定机器翻译的质量和应用范围。与一般的电子词典不同,机器翻译词典每个词条都要比一般的电子词典增加词类信息、语义类别信息和成语等。文章以频率统计和频率分布统计作为维汉机器翻译词典的词条收录原则,统计维吾尔文中常用的单词数目,论述维汉机器翻译词典的设计思想,用BNF形式语言和Jackson图描述维汉机器翻译词典应包含的词条信息,最后介绍词典的具体构造方法、词条排序原则、索引表和属性库的数据结构和词典信息的查找方法。试验表明该词典在解决维吾尔语词汇歧义、结构歧义、提高汉语译文准确率等方面较为有效。  相似文献   

2.
通过在普通按键上装上一个点阵式字符显示器便可制成一种极端灵活的新型信息输入系统——电子式变字符键盘系统.它不仅可以适用于一切中外文种,而且可以适用于一切汉字编码方法.特别重要的是,在这种键盘上还可以使用一种最简单易学的汉字输入方法——准整字输入法,操作者不需记忆任何代码规则,只需把同类字检出调至键盘上然后选择其一整字键出.这种键盘有可能为解决汉字输入方式这一难题找到一条新的出路.  相似文献   

3.
码本是指输入系统所对应的汉字及词组的编码、属性等信息的文件,是汉字输入系统的基础.文章介绍了输入法字码本和词组码本的采集、整理、转换的一般过程,对汉字输入法码本的前期处理做了一个总括.  相似文献   

4.
输入法码本前期处理工具的实现   总被引:3,自引:0,他引:3  
张玉华  周克兰 《微机发展》2003,13(4):89-91,F003
码本是指输入系统所对应的汉字及词组的编码,属性等信息的文件,是汉字输入系统的基础,文章介绍了输入法字码本和词组码本的采集、整理、转换的一般过程,对汉字输入法码本的前期处理做了一个总结。  相似文献   

5.
目前,电子计算机广泛应用于国民经济各个部几 甚至由传统的数字信息处理扩展到非数字信息处理。尤其是在汉字信息处理系统中,迫切需要用计算机直接处理汉字资料。所以,研制一种简便可靠,高速进行汉字输入的装置就成为汉字资料处理系统的极重要课题。 国外对汉字输入装置的研究开始较早,并已研制出各种类型的汉字输入装置。尤其在日本,这类装置的应用较为广泛。汉字输入装置根据工作原理大致可分成两类:一类是把文字所表示的文字代码(识别其文字的位数、图案)送到信息处理系统;另一类是不识别代码,只将字型的图形信息送入信息处理系统进行识别。表1示出汉字输入装置分类。表中键盘打入式和指示位置式输入属于第一类,字形识别式输入属于第二类。下面分别介绍上述几种汉字输入方法。  相似文献   

6.
本文介绍了中文Windows3.1系统的汉字输入码表文件的格式以及UDCOS5.0万能输入法的汉字输入编码字典文件的格式,通过这两种文件格式的转换,利用中文WINDOS系统提供的通用码表输入法接口,将UCDOS5.0万能输入法中的汉字输入法移植到中文WINDOWS下的实现方法。文后给出了有关程序清单。  相似文献   

7.
“智能五笔”可以说是“万码奔腾”的输入法中最能体现高效智能的输入法。使用它能有效提高汉字输入速度,前提是你必须了解它的主要功能和特点,否则当作传统的五笔输入法来使用可谓暴殓天物。因此,花一点时间了解“智能五笔”是很有必要的(以“智能五笔”4.1版为例)。一、加速法宝——“智能五笔”中的“智能”1、智能选取重码字词出现重码时,传统的输入法是按固定的顺序显示所有词条,而“智能五笔”能自动调整词条顺序,将你需要的词条排在第一个位置,从而减少人工选词的操作,加快了输入速度。具体表现在:①根据用户输入习惯自…  相似文献   

8.
基于规则库的汉字输入法自动评测系统的设计   总被引:3,自引:2,他引:3  
汉字编码输入法是汉字输入电脑的主要方式。对输入法进行科学评价,从而帮助软件开发人员和输入法用户进行自我改进或评估,有其十分积极的意义。本文在实际应用基础上,提出了通过汉字输入系统输入规则库的建立,在选定的输入法状态下,通过计算机自动模拟汉字输入得到输入法码本,并以码本为基础根据信息技术国家标准完成输入法性能自动评价的思路。  相似文献   

9.
基于百度百科的词语相似度计算   总被引:1,自引:1,他引:0  
词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题.传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库.提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度.实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理.  相似文献   

10.
目前的情绪词典通常对情绪词语进行情绪类别和强度的标注,但缺乏对词语的情绪表达和情绪认知结果进行区分的能力。同时,直接在词语条目上进行标注经常由于词语的语义歧义导致情绪标注结果存在歧义。该文在对个体情绪产生和迁移机制进行分析的基础上,建立了基于“刺激认知—反射表达”的文本情绪计算框架。并在此框架下对情绪相关词语的功能和特性进行分析,探索了一种新型情绪词典建设方法。首先,引入HowNet提供的词语语义信息,将同一词语转变为不同语义的多个词条进行标注减少情绪标注歧义。其次,将词语的情绪表达方式和情绪认知结果加以区分,分别标注从不同角度观测到的词条情绪类别和强度,同时对词语的情绪表达和情绪认知类型进行了细化分类。最终初步构建出一个具有清晰框架、丰富情绪信息和较低歧义的新型情绪词典。  相似文献   

11.
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。  相似文献   

12.
提出了一种用于机器识字的汉字容错编码方法。该编码采用统计粗分类和结构细分类相结合的方法,定义了易于机器识别的汉字结构字元集,给出了笔划字元的顺序判断规则。构建了37类子结构的编码和冗余容错编码,建立了仿人构字的汉字编码规则和字典。仿真实验表明,这种编码方法易于机器识别,具有容错性,且拒识和误识率较低。  相似文献   

13.
汉语自动分词词典机制的实验研究   总被引:70,自引:4,他引:66  
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。  相似文献   

14.
基于Hash结构的机械统计分词系统研究   总被引:3,自引:1,他引:3  
在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。  相似文献   

15.
汉语词典查询是中文信息处理系统的重要基础部分, 对系统效率有重要的影响. 国内自80年代中后期就开展了中文分词词典机制的研究, 为了提高现有基于词典的分词机制的查询效率, 对于词长不超过4字的词提出了一种全新的分词词典机制——基于汉字串进制值的拉链式哈希机制即词值哈希机制. 对每个汉字的机内码从新编码, 利用进制原理, 计算出一个词语的词值, 建立一个拉链式词值哈希机制, 从而提高查询匹配速度.  相似文献   

16.
辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读系统,它可以为汉语学习者提供即时的辅助翻译和学习功能。系统首先提出基于字信息的汉语词法分析方法,对汉语网页中文本进行分词处理,然后利用基于组成字结构信息的方法发现新词。对于通用词典未收录的新词(例如: 专业术语、专有名词和固定短语),系统提出了基于语义预测和反馈学习的方法在Web上挖掘出地道的译文。对于常用词,系统通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例。该系统关键技术包括: 基于字信息的汉语词法分析,基于组成字结构信息的新词发现,基于语义预测和反馈学习的新词译文获取,这些模块均以字分析单元的方法为主线,并始终贯穿着整个系统。实验表明该系统在各方面都具有良好的性能。  相似文献   

17.
使用二级索引的中文分词词典   总被引:3,自引:0,他引:3       下载免费PDF全文
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。  相似文献   

18.
汉语分词词典设计   总被引:8,自引:1,他引:8  
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制,设计并实现了汉语分词词典,有效地减少了词典空间。实验结果表明该词典具有较高的查询性能。  相似文献   

19.
文章介绍了立足于机读文本资源——机读《现代汉语词典》和机读《同义词词林》,分级建造以统一管理、共享数据资源为特征的汉语语义词典的研究工作。  相似文献   

20.
一种中文分词词典新机制——双字哈希机制   总被引:42,自引:2,他引:42  
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制——双字哈希机制,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,提高了中文分词的速度和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号