首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
现代汉语语法信息词典规格说明书   总被引:5,自引:2,他引:5  
《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书的初稿制订于1990年。在八五攻关期间1991年至1995年,一方面严格按照规格说明书进行词典内容的开发, 一方面在开发过程中又对规格说明书进行了局部的调整与修订, 于1995年11月形成的现在的版本。这份规格说明书也是汉语信息处理研究的一项重要成果。#br#现在发表的这份规格说明书共分以下五章第一章介绍词典的设计目标与结构第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段,第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于年月通过专家鉴定时所达到的规模附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。  相似文献   

2.
《现代汉语语法信息词典》的新进展   总被引:5,自引:0,他引:5  
《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。1995年11月底通过技术鉴定。5年来,北大计算语言学研究所在应用、推广的同时,仍把重要的力量投入词典本身的发展。至目前为止,词典收词已由5万条增加到7.3万条,并且全部完成了归类;为了处理未定义词,还开发了一个全新的语素库;词语语法属性描述中的瑕疵得到了进一步的修正,新增了20多个语法属性项目和大量的实例。整个词典的规模和质量有了显著的提高。  相似文献   

3.
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因: 词类迁移;词类判断标准不一致;收录义项不同。  相似文献   

4.
以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进“分散度”概念,利用它对“数名”结构进行了定量分析;其次,考察了名词受不同量词修饰的分布情况。最后,把实验结果与《现代汉语语法信息词典》的相应属性进行了比照和分析,在属性概率化的同时也对其正确性进行了验证。  相似文献   

5.
随着计算机技术的不断发展和普及,我国相关工作人员开始研究面向自然语言处理的机器词典。近年来,北京大学计算机语言学研究所研制了《现代汉语语法信息词典》(简称GKB)。在GKB的基础上,相关工作人员衍生了综合型语言知识库。由于面向自然语言处理的机器词典在语言工程研究上具有重要意义,因此介绍了GKB及相关研究结果,分析了语言工程研究的相关经验,以期为相关工作者提供指导和帮助。  相似文献   

6.
评《现代汉语语法信息词典详解》   总被引:1,自引:1,他引:0  
北京大学计算语言学研究所俞士汶、朱学锋、王惠、张芸芸著的《现代汉语语法信息词典详解》,最近作为《中文信息处理丛书》之一由清华大学出版社出版了。这本专著是根据电子版《现代汉语语法信息词典》编写的,整部词典收词5万多条,存储空间达16兆字节。这部词典对真实文本的覆盖率高,所采用的体系反映了汉语语法研究的最新成就,分类体系可操作性强,对语法属性的描述非常深入、非常丰富,具有较高的权威性和可靠性。在1995年11月电子部组织技术鉴定会上专家一致认为:“这部词典的规模、深度与质量,在我国语言工程实践中是前所未有的,达到了国内外领先水平。”《现代汉语语法信息词典详解》从这部具有国内外领先水平的词典中,选出1万词作为本书的大部分篇幅提供给读者,并对词典的内容、基本理论依据、词语的语法功能分类、词语的语法属性描述、以及词典的应用与发展详细地加以说明,使我们从中不难窥测到词典的全貌,并进一步了解到作者所依据的理论和方法。  相似文献   

7.
大规模现代汉语标注语料库的加工规范   总被引:14,自引:5,他引:9  
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。 规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。 要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。  相似文献   

8.
汉语缺乏严格的形态束缚,在句子里双音词经常由于嵌入相关句法成分而呈现出分离。为了提高自然语言处理中语段分词、词性标注及基于规则的句子语义计算的准确性与有效度等,文章系统考察了现代汉语里典型词与离合词的分离现象,挖掘并刻画出它们各自形成的语法动因、条件、意义以及分离而成的成分的语法特性等,从而对现代汉语中双音词的分离做出了系统多层级的理论思考。文章指出典型词的分离是语用作用的结果,分离结构的意义是主观的;而离合词分离是句法语义作用的产物,意义是客观的。  相似文献   

9.
自然语言处理用藏语格助词的语法信息研究   总被引:2,自引:1,他引:1  
该文主要探讨了藏语格助词的语法信息、语义信息、功能结构等内容,从而为建立藏语格助词的语法属性库提供详实的参数。这对句子进行分析与描述,观察句子歧义都有着重要的意义。  相似文献   

10.
本文提出一种基于语法、语义信息的多滤波器集成边缘检测方法.该方法把图像灰度分布的形式所包含的边界信息看成是语义信息,而把不同滤波器所提取出的灰度分布形式的信息看成是语法信息.我们从语法信息出发,按一定的逻辑推出不同种类的边界.最后再用模糊逻辑得出符合实际需要的边缘检测结果.基于本文的思想,本文构造了几种具有选择性和抗噪性的滤波器,利用滤波器得到的语法信息得到语义边界.实验结果表明本文的方法具有较好的边缘检测效果和抗噪能力.  相似文献   

11.
该文吸收已有动词研究的相关成果,提出了动词语义词典开发的相关原则和研制思路,界定并描写了词典中所涉及的相关属性信息,并对词典的总体文件结构及其各个库的信息进行了描写和说明。最终开发了融合词汇语义和句法语义,涵盖词形、词性、释义、义类、义场、句法范畴信息、语义范畴信息、语义句模等多种信息参数的开放性的动词语义知识词典。该词典可以在歧义分化、词义关系考察、句法—语义接口、句模抽取等方面提供支持。  相似文献   

12.
《现代汉语语义词典》管理系统的设计与实现   总被引:2,自引:0,他引:2  
主要介绍了用VB5.0为《现代汉语语义词典》设计并实现动态管理,多种查询管理系统的研究工作。  相似文献   

13.
基于语法信息的汉语韵律结构预测   总被引:8,自引:4,他引:8  
韵律结构的预测, 主要包括短语的自动切分和重音的等级分布两个大的方面。本文在概述汉语韵律结构的基础上, 根据从自然话语中获得的韵律结构与句法结构和词性的关系, 用一种新的方法,通过文本分析,全面地预测韵律边界的位置分布及其等级差异,并进一步预测重音的位置分布及其等级差异。  相似文献   

14.
现代汉语语义知识库用于句法分析的研究   总被引:1,自引:0,他引:1  
尹一瓴  陈群秀 《计算机应用》2004,24(Z2):264-267
汉语在词类这个语言层次上存在着许多歧义结构,仅仅依靠句子中词的词性标记无法正确获得汉语词之间的句法关系.针对这种情况,在已有的基于规则与概率模型的句法分析器基础上,使用现代汉语语义知识库作为语义资源,进行了在句法分析中引入语义信息以提高分析正确性的研究.  相似文献   

15.
藏语语料库词类描述方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
藏语词类的基本属性描述是藏语语料库多级加工的基础,根据藏语语料库多级加工的实际需要,通过对藏语词类的语法、语义信息的描述和藏语词语后添加方式的分析,可以为计算机对藏文的词语搭配结构、语法信息、语义信息和词类标记进行自动处理提供一个切实可行的方法。  相似文献   

16.
现代汉语句子的时间信息,是由句中的各个单位及其关系共同编码的,因此必须建立起整体的时间认知模型才能计算。包括三个方面:11 将时间性质分解为事件的基本阶段(起始、持续、终结) 、事件的时段(确定时段、相对小量、相对大量) 和认知窗口的时间基点等认知要素,对事件类型进行分类,在此基础上,构建有关时间的认知模型。21 对现代汉语句子中可能出现的每一单位和关系,用事件类型符号和时间要素符号进行翻译,所得的结果———该单位或关系的元语言表述式(翻译式) ———表明了该单位或关系在编码时间信息时究竟表现什么意义。31 在认知模型中建立一个由规则驱动的运算系统,将元语言表述式化简为最简表述,它即是句子整体编码的时间信息。  相似文献   

17.
李彬 《网友世界》2014,(19):163-163
随着网络的不断发展,人们对它的依赖越来越强,大量的、多样的网络语言融入现代汉语,成为现代汉语的重要组成部分。网络语言是一种新生事物,是一种特殊语言,新鲜、活泼,给现代汉语带来了活力,但同时也夹杂着粗糙和混乱,对现代汉语带来一些冲击和影响。  相似文献   

18.
通用标准SQL语法分析模型   总被引:4,自引:0,他引:4  
在构造通用SQL查询的工程项目中,对SQL语句准确的分析验证并给出有指导性的错误信息是非常关键的.本文根据编译原理中的句法分析,并利用了逻辑代数的知识和方法建立了一个完善的标准SQL验证模型,模型中首先定义了一个标准SQL语句对象ANSISQLO,然后分别针对句法和文法建立了详尽的规则,分Formal-Rule和Logic-Rule两个阶段建立ANSISQLO对象并进行验证.文中还对嵌套的SQL语句做了进一步分析,建立了句法树以及句法广度优先和语义深度优先的验证原则.模型对涉及到通用SQL查询的项目有很强的指导意义.  相似文献   

19.
袁毓林  曹宏 《中文信息学报》2022,36(8):29-36+45
该文首先介绍《动词句法语义信息词典》的体系结构与理论背景;然后,介绍该词典所区分的8种动词小类及其定义;重点介绍该词典为动词所设置的22种语义角色及其定义,由这些语义角色的不同配置而造成的20来种句法格式及其例句,及其所考察的动词的9种主要的语法功能及其对于该词类的隶属度;最后,给出该词典的检索系统的界面截图,交代其相应的纸质版本的情况。  相似文献   

20.
消除GCC抽象语法树文本中冗余信息的算法研究   总被引:1,自引:0,他引:1  
由GCC编译器对C语言源程序进行语法分析产生的抽象语法树文本存在大量的冗余信息,如果直接对其进行解析,则会产生解析效率低、产生的抽象语法树会占用大量的存储空间的问题.针对此问题,在深入研究(GDC抽象语法树文本结构和解析过程的基础上,提出了一种高效消除冗余的算法,通过实验证明了算法的正确性和适用性,并提出了GCC抽象语法树解析的数学定义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号