首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 96 毫秒
1.
随着ISO10646的出台,庞大的汉字词集的属性分析是一个迫切需要解决的难题,本文主要阐述了采用C/S模式的汉字词属性分析和重组系统的数据模型,并简单介绍了系统的设计要点。  相似文献   

2.
本文主要阐述了采用C/S模式的汉字词属性分析和重组系统的数据模型,并简单介绍了系统的设计要点。  相似文献   

3.
一个高精度的简、繁体印刷体汉字文本识别系统   总被引:2,自引:0,他引:2  
本文叙述了一个基于改进的“汉字识别特征点方法”的高精度简、繁体印刷体汉字文本识别系统。引入特征点的方向属性, 明显地提高了“汉字识别特征点方法”的汉字识别率。文中阐述了该系统各主要环节的原理。经过百万汉字真实印刷文本的严格测试,本系统汉字识别率达到97.84%。对质量较高的真实印刷文本, 汉字识别率达到99%以上。  相似文献   

4.
结合开发实际,介绍了笔顺输入法中汉字搜索算法和字码表及词码表的生成过程。从排序和查找两方面考虑,首先将汉字字库生成汉字字码表,然后将字码表根据首笔进行分区,当用户输入首笔后由汉字字码表索引文件决定在哪个分区范围内进行查找。实例证明本方法满足查找速度要求。  相似文献   

5.
中文电子字典中汉字的属性有很多,如果每个属性都手工识别、计算、生成到汉字数据库中,整个系统会变得十分低效并且容易出现错误.分析了中文电子字典中汉字的属性特征,设计并实现了汉字各要素的生成算法和录入方案,将生成的数据保存在汉字数据库中,从而解决了由于汉字的复杂性使得数据库内容生成困难的问题,节省了大量的手工操作,并且能够迅速定位到要检索的数据,系统测试结果表明,该算法效率良好.  相似文献   

6.
方应谦  王鲁 《中文信息学报》2000,14(2):26-30,,48,
汉字识别中,以往的分类器设计都是以字为单位的“字分类器”。字分类器的输出总是与待识字结构相似的一个侯选字集合。这是使后级识别容易产生误识的主要原因。为克服字分类器的缺点,本文给出了以词为单位的词分类器设计的策略与方法,并实验验证了词分类器在分类率及分类速度方面均优于字分类器。  相似文献   

7.
余一骄  尹燕飞  刘芹 《计算机科学》2014,41(10):276-282
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串。以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战。  相似文献   

8.
本文提出并讨论了拼音汉字转换输入法中的常用词搭配结构的识别方法。该方法在词组的水平上, 在常用格配结构约束下利用少量的词属性特征, 可有效的解决许多单字词的识别问题, 这其中包括一些单纯句法难以识别的同音单字词。  相似文献   

9.
输入法码本前期处理工具的实现   总被引:3,自引:0,他引:3  
张玉华  周克兰 《微机发展》2003,13(4):89-91,F003
码本是指输入系统所对应的汉字及词组的编码,属性等信息的文件,是汉字输入系统的基础,文章介绍了输入法字码本和词组码本的采集、整理、转换的一般过程,对汉字输入法码本的前期处理做了一个总结。  相似文献   

10.
本文分析了几种常用汉字编码方案的简码字表, 发现有很多不一致之处。考虑到简码字的合理选取数量、记忆量和键位安排等因素, 提出汉字的使用频度/构词能力级比率要较单纯使用频度指标更为合理。根据这一指标, 在“汉字属性信息数据库”基础上, 找出了78个简码字和120个简码双字词, 并进行了相应的键位安排以便于实际应用。  相似文献   

11.
在自然语言处理中,短语在汉语分析中占有举足轻重的地位。短语作为汉语句子中的一个基本组成单位,在整个汉语句子的句法分析与语义分析中具有特别重要的意义。为了提高汉语分析的质量,文中在借鉴他人算法的基础上,提出了一种规则和统计相结合的短语识别方法。首先利用词或词语之间的互信息进行短语边界的预测,然后根据词语的词汇和词类信息进行边界调整,最后进行括号匹配和短语标注。实验结果表明:该方法提高了短语的识别率和准确率,提高了汉语分析的质量。  相似文献   

12.
汉藏短语抽取   总被引:1,自引:1,他引:0  
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。  相似文献   

13.
汉字设计是平面设计的重要组成部分,汉字图形化是汉字设计的一种形式。我国传统的汉字图形化设计几乎与汉字有着同样悠久的发展历史。传统汉字图形化的题材和手法多种多样,应用形式也丰富多彩,为现代汉字设计承载中国文化精神提供了传统依据。本文重点对我国传统的文字图形化形式进行分析和总结,希望为当今设计者带来新的启示。  相似文献   

14.
基于标点符号分割的汉语句法分析算法   总被引:6,自引:0,他引:6  
目前大部分句法解析器都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出单独解析块的概念,并且根据标点符号在句子中的特有特征和位置关系,给出了基于决策树算法(Id3)单独解析块识别方法,将标点融入汉语句法分析中。本文所用的实验数据(包括训练集和测试集)均来自中文宾州树库5.0。对句长大于40个词的汉语长句单独进行了实验,句法分析精度和召回率分别提高1.59%和0.93%,同时时间开销降低了近2/3。实验结果表明,标点对汉语长句句法分析非常有利, 系统性能获得了较大提高。  相似文献   

15.
联机手写体汉字联想识别系统   总被引:1,自引:0,他引:1  
本文提出一种联机手写体汉字联想识别系统.在单字识别的基础上,有分词信息的前提下,利用汉语词的前后约束及字的特征信息对识别结果进行后处理.从而提高了联机识别系统的识别率.  相似文献   

16.
树库是自然语言处理中一项重要的基础资源,现有树库基本上都是单视图树,支持短语结构语法或者依存语法。该文提出一套基于依存语法的多视图汉语树库标注体系,仅需标注中心语和语法角色两类信息,之后可以自动地推导出描述句法结构所需的短语结构功能和层次信息,从而可以在不增加标注工作量的前提下获得更多语法信息。基于该体系,构建了北京大学多视图汉语树库(PMT)1.0版,含有64000句、140万词,支持短语结构语法和依存语法两个视图。  相似文献   

17.
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。  相似文献   

18.
针对下位机是单片机系统,上位机是PC机,下位机与上位机以异步串行通信方式交换信息,PC机界面为汉字界面的集散控制系统,讨论在单片机系统上建立汉字词汇库,形成状态点释义汉字串,组织汉字区位码串串行通信格式的方法。词汇库是由编号词组子库组成,汉字用区位码存储,状态点释义汉字串由词组编号链接而成,为释义汉字串设置专门的串行通信格式。该方法的显著特点是状态点及其释义字串的变化基本不会引起上位机的程序变化。实验结果表明,该方法有益于提高系统的通用性、二次开发性以及容错能力,拓展汉字应用范围,增强单片机系统功能。  相似文献   

19.
西方拉丁字母和日本字体的种类都远远超过我国的汉字字体,借鉴和参考其优秀的字体来设计汉字字体是一条方便而快捷的丰富汉字字体种类的途径。我国少数民族文字种类异常丰富,其字体形态和结构也独具个性,汲取这些字体中的一些特征和元素融入到汉字设计中,也是汉字字体设计的一个思路和方法。  相似文献   

20.
一种多知识源汉语语言模型的研究与实现   总被引:7,自引:0,他引:7  
针对汉语语言模型中知识获取不足的问题,提出了一种统计与多种形式规则信息结合的机制,将规则的表示量化,提出语法语义规则的概念,通过扩充词网络,对其于最大可能性的n元概率值合理调整,将短语构成规则,二元语法语义规则,最少分词原则等融入统计模型框架,构成多知识源语言模型,模型应用于智能拼音汉字转换系统,明显提高了音字转换正确率,并适于处理长距离和递归语言现象。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号