首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
《现代汉语语义词典》管理系统的设计与实现   总被引:2,自引:0,他引:2  
主要介绍了用VB5.0为《现代汉语语义词典》设计并实现动态管理,多种查询管理系统的研究工作。  相似文献   

2.
现代汉语语法信息词典规格说明书   总被引:14,自引:2,他引:14  
《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书(specification)的初稿制订于1990年。在八五攻关期间(1991年至1995年),一方面严格按照规格说明书进行词典内容的开发,一方面在开发过程中又对规格说明书进行了局部的调整与修订,于1995年11月形成了现在的版本、这份规格说明书也是汉语信息处理研究的一项重要成果。现在发表的这份规格说明书共分以下五章:第一章介绍词典的设计目标与结构。第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段、第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于1995年11月通过专家鉴定时所达到的规模。附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。  相似文献   

3.
以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进“分散度”概念,利用它对“数名”结构进行了定量分析;其次,考察了名词受不同量词修饰的分布情况。最后,把实验结果与《现代汉语语法信息词典》的相应属性进行了比照和分析,在属性概率化的同时也对其正确性进行了验证。  相似文献   

4.
现代汉语语法信息词典规格说明书   总被引:5,自引:2,他引:5  
《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书的初稿制订于1990年。在八五攻关期间1991年至1995年,一方面严格按照规格说明书进行词典内容的开发, 一方面在开发过程中又对规格说明书进行了局部的调整与修订, 于1995年11月形成的现在的版本。这份规格说明书也是汉语信息处理研究的一项重要成果。#br#现在发表的这份规格说明书共分以下五章第一章介绍词典的设计目标与结构第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段,第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于年月通过专家鉴定时所达到的规模附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。  相似文献   

5.
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因: 词类迁移;词类判断标准不一致;收录义项不同。  相似文献   

6.
评《现代汉语语法信息词典详解》   总被引:1,自引:1,他引:0  
北京大学计算语言学研究所俞士汶、朱学锋、王惠、张芸芸著的《现代汉语语法信息词典详解》,最近作为《中文信息处理丛书》之一由清华大学出版社出版了。这本专著是根据电子版《现代汉语语法信息词典》编写的,整部词典收词5万多条,存储空间达16兆字节。这部词典对真实文本的覆盖率高,所采用的体系反映了汉语语法研究的最新成就,分类体系可操作性强,对语法属性的描述非常深入、非常丰富,具有较高的权威性和可靠性。在1995年11月电子部组织技术鉴定会上专家一致认为:“这部词典的规模、深度与质量,在我国语言工程实践中是前所未有的,达到了国内外领先水平。”《现代汉语语法信息词典详解》从这部具有国内外领先水平的词典中,选出1万词作为本书的大部分篇幅提供给读者,并对词典的内容、基本理论依据、词语的语法功能分类、词语的语法属性描述、以及词典的应用与发展详细地加以说明,使我们从中不难窥测到词典的全貌,并进一步了解到作者所依据的理论和方法。  相似文献   

7.
随着计算机技术的不断发展和普及,我国相关工作人员开始研究面向自然语言处理的机器词典。近年来,北京大学计算机语言学研究所研制了《现代汉语语法信息词典》(简称GKB)。在GKB的基础上,相关工作人员衍生了综合型语言知识库。由于面向自然语言处理的机器词典在语言工程研究上具有重要意义,因此介绍了GKB及相关研究结果,分析了语言工程研究的相关经验,以期为相关工作者提供指导和帮助。  相似文献   

8.
《现代汉语语义分类词典》(TMC)研制中若干问题的思考   总被引:1,自引:0,他引:1  
《现代汉语语义分类词典》继承了《同义词词林》概念分类的传统,以反映一个社会的生活全貌及认识观念的概念关系为目的,收录了8万余条现代汉语通用性较高的语文词语,建构出了一个五级语义分类体系,里面包括9个一级类,62个二级类,518个三级类,2 076个四级类,12 613个五级类。所建构的义类关系,注重上位语义层对下位语义层有较强控制力,下位语义层对上位语义层的义域能全面覆盖,左右语义类具有互补对应的功能。  相似文献   

9.
大规模现代汉语标注语料库的加工规范   总被引:14,自引:5,他引:9  
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。 规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。 要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。  相似文献   

10.
汉语分词词典设计   总被引:9,自引:1,他引:8  
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制,设计并实现了汉语分词词典,有效地减少了词典空间。实验结果表明该词典具有较高的查询性能。  相似文献   

11.
本文针对国史学科知识特色,提出了构建国史本体的思路,构建了一个可供机器阅读和理解的国史语义知识库,并基于此对网络国史百科知识进行符合学科逻辑的有序化组织,实现了语义互联国史百科的构想,同时通过提供交互可视化智能检索,构建了一个智能历史知识学习平台。本项目的研究对于促进网络百科发展、提高知识服务水平具有重要意义。  相似文献   

12.
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。  相似文献   

13.
现代汉语虚词知识库的研究   总被引:1,自引:0,他引:1  
现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。  相似文献   

14.
基于语法信息的汉语韵律结构预测   总被引:8,自引:4,他引:8  
韵律结构的预测, 主要包括短语的自动切分和重音的等级分布两个大的方面。本文在概述汉语韵律结构的基础上, 根据从自然话语中获得的韵律结构与句法结构和词性的关系, 用一种新的方法,通过文本分析,全面地预测韵律边界的位置分布及其等级差异,并进一步预测重音的位置分布及其等级差异。  相似文献   

15.
行业信息化知识库系统知识库设计   总被引:4,自引:0,他引:4  
行业信息化知识库(KBI)有别于一般的知识库和专家系统,所以根据需求,采用了知识本体的知识表示形式,为了更合理的建设知识库,通过对行业信息化知识的行业结构分析,构建了知识模型,并依据知识表示形式以及构建的知识模型,设计了行业信息化知识库系统的知识库.该知识库是针对战略物资行业的,提出了知识库系统的总体结构,把知识库和数据库相结合,进行了知识库结构的逐步设计.  相似文献   

16.
基于知识图的汉语词汇语义相似度计算   总被引:2,自引:1,他引:1  
提出了一种基于知识图的汉语词汇相似度计算方法,该方法以《知网》2005版为语义知识资源,以知识图为知识表示方法,在构造词图的基础上,以知网中的语义关系为依据对词汇概念中的义原进行分类,通过计算不同类型义原的相似度得到概念的相似度;为了对词汇相似度计算方法进行客观评价,设计了词汇相似度计算方法的量化评价模型;采用该模型对所提出的计算方法进行评价,试验结果证明此方法的有效度为89.1%。  相似文献   

17.
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。  相似文献   

18.
Rough set theory is a useful tool for dealing with imprecise knowledge. One of the advantages of rough set theory is the fact that an unknown target concept can be approximately characterized by existing knowledge structures in a knowledge base. This paper explores knowledge structures in a knowledge base. Knowledge structures in a knowledge base are firstly described by means of set vectors and relationships between knowledge structures divided into four classes. Then, properties of knowledge structures are discussed. Finally, group, lattice, mapping, and soft characterizations of knowledge structures are given.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号