共查询到18条相似文献,搜索用时 218 毫秒
1.
2.
综合型语言知识库的建设与利用 总被引:15,自引:4,他引:15
语言知识库的规模和质量决定了自然语言处理系统的成败。经过18年的努力,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源:现代汉语语法信息词典,大规模基本标注语料库,现代汉语语义词典,中文概念词典,不同单位对齐的双语语料库,多个专业领域的术语库,现代汉语短语结构规则库,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外,还将提供支持知识挖掘的工具软件,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展;提供多种形式的知识传播和信息服务机制,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、多层次的支持。 相似文献
3.
4.
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及“部件词”的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。 相似文献
5.
6.
北京大学计算语言学研究所完成的研究成果《综合型语言知识库》于2007年2月13日在京通过技术鉴定。鉴定会由教育部主持。鉴定委员会由来自清华大学、北京航空航天大学、中科院软件所、中科院计算所、教育部语言文字应用研究所、北京语言大学、中国科学技术信息研究所的9位专家组成。张钹院士任主任,怀进鹏教授任副主任。 相似文献
7.
8.
9.
10.
建立一个较为完整的、能够为自然语言处理系统提供知识支撑的语言知识库是蒙古文信息处理当务之急。目前蒙古语语言知识库建设已取得阶段性成果,知识库已初具规模,但也仍然存在一些亟待解决的理论和技术问题。该文对蒙古语语言知识库的主要结构和内容,蒙古语语言知识库的应用,尚待解决的问题进行介绍和探讨。 相似文献
11.
12.
13.
现状和设想——试论中文信息处理与现代汉语研究 总被引:14,自引:0,他引:14
本文介绍了中文信息处理技术发展的现状及面临的主要困难,指出:关键在于对现代汉语研究的滞后。到目前为止,中文信息处理主要依赖于对大规模语料的统计,根据概率,对词与词的关系作出界定。多年来中文信息处理技术徘徊难进的现实说明,这一方法已经难以突破“瓶颈”,要使计算机对现代汉语进行自动化的处理,即使之真正“智能化”,就必须把人的语言知识“教”给计算机。这就需要根据计算机的要求加强对现代汉语的研究,特别是对语义的研究。文中介绍了当前朝此方向努力并已有较大进展的三个流派,并分别指出其不足;参考作者主持国家“九五”重点项目“信息处理用现代汉语词汇研究”的经验,提出了统一使用资源、携手并进、共同攻关的设想。 相似文献
14.
海银花 《计算机工程与应用》2016,52(10):128-134
蒙古语语义信息词典(SIKM)作为一部知识库已成为整个蒙古语语言资源的组成部分。自2009年至今,词典的研发取得了阶段性进展。SIKM现已收录5.7万多条记录,涵盖4个词典库。其中包含全部词语的1个“总库”,名词、形容词、动词等3个词类各建一个数据库。每个数据库文件都详细刻画了各词类词语及其语义属性的二维关系。目前已完成5.7万多条词语的语义分类和属性描述,该分类体系和词典的一些属性信息初步被应用到蒙古文信息处理相关基础研究和开发之中。介绍词典规模及结构,语义分类体系、属性字段描述以及研制过程中遇到的一些难点,词典的初步应用情况等内容。 相似文献
15.
音字转换中分层解码模型的研究与改进 总被引:1,自引:0,他引:1
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。 相似文献
16.
大规模现代汉语标注语料库的加工规范 总被引:14,自引:5,他引:9
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。
规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。
要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。 相似文献
17.
计算机语义分析是当前制约中文信息检索、信息抽取与机器翻译等应用技术发展的瓶颈问题,而语义角色标注是语义分析的一个主要任务.即以框架语义理论为基础,以汉语框架语义知识库的核心框架元素为语义角色标注的范畴知识体系,以认知语义领域为研究实例,以真实语料为依据,根据短语类型、句法功能以及短语内、外部其他句法语义特征,获取中文语... 相似文献