期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

俞士汶穗志方朱学锋《中文信息学报》2011,25(6):12-21

北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。相似文献

2.

综合型语言知识库的建设与利用 总被引：15，自引：4，他引：15

俞士汶段慧明朱学锋张化瑞《中文信息学报》2004,18(5):2-11

语言知识库的规模和质量决定了自然语言处理系统的成败。经过18年的努力,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源:现代汉语语法信息词典,大规模基本标注语料库,现代汉语语义词典,中文概念词典,不同单位对齐的双语语料库,多个专业领域的术语库,现代汉语短语结构规则库,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外,还将提供支持知识挖掘的工具软件,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展;提供多种形式的知识传播和信息服务机制,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、多层次的支持。相似文献

3.

“综合型语言知识库”获教育部科技进步奖一等奖

《中文信息学报》2008,22(3):15

“综合型语言知识库”获2007年度教育部科技进步奖一等奖。该项成果是北京大学计算语言学研究所取得的,获奖人员有:俞士汶、段慧明、孙斌、常宝宝、刘扬、朱学锋、张化瑞、陆俭明、于江生。1995年底朱学锋、俞士汶在学术会议上做了题为《自然语言处理与语言知识库》的报告(见罗相似文献

4.

词汇计量研究与常用词知识库建设

俞士汶朱学锋《中文信息学报》2015,29(3):16-20

面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及“部件词”的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。相似文献

5.

下一站在哪里？

董振东董强郝长伶《中文信息学报》2011,25(6):3-12

该文简要回顾了中文信息处理30年的主要成果,以及近20年来中文信息处理中的计算语言学研究的状况。该文分析了汉语与英语的主要差异,讨论了语言的共性与个性。该文表示了对于中文大规模语料的词性标注、树库建设的质疑。该文提出未来的中文语言资源建设的一些设想,期望一些新的尝试,提出以语义取代现有的句法,以深度标注取代现有的浅层标注,具体将包括标注的目标的定点化,内容的多样化,步骤的阶段化,标注人员的大众化、群体化。文章还提出了未来发展的关键点技术的融合,人本计算。相似文献

6.

《综合型语言知识库》通过技术鉴定

张化瑞《中文信息学报》2007,21(3):82-82

北京大学计算语言学研究所完成的研究成果《综合型语言知识库》于2007年2月13日在京通过技术鉴定。鉴定会由教育部主持。鉴定委员会由来自清华大学、北京航空航天大学、中科院软件所、中科院计算所、教育部语言文字应用研究所、北京语言大学、中国科学技术信息研究所的9位专家组成。张钹院士任主任，怀进鹏教授任副主任。相似文献

7.

词位重构与平行语言资源的再生性建设

萧国政高精鍊双文庭姬东鸿郭婷婷吴泓渺《中文信息学报》2014,28(6):95-100

该文以大数据意识为背景,通过语言学范畴“词位”内涵、外延的重构,以自然和人工平行性语言资源为基础,提出和讨论语言资源的再生性建设命题。并以期“通过资源建构资源”的再生性模式,推动语言资源多类型、高覆盖、跨语言快速发展及语言应用理论建设。相似文献

8.

面向自然语言处理的机器词典的研制

《信息与电脑》2019,(15)

随着计算机技术的不断发展和普及,我国相关工作人员开始研究面向自然语言处理的机器词典。近年来,北京大学计算机语言学研究所研制了《现代汉语语法信息词典》(简称GKB)。在GKB的基础上,相关工作人员衍生了综合型语言知识库。由于面向自然语言处理的机器词典在语言工程研究上具有重要意义,因此介绍了GKB及相关研究结果,分析了语言工程研究的相关经验,以期为相关工作者提供指导和帮助。相似文献

9.

汉语框架语义知识库及软件描述体系 总被引：2，自引：1，他引：2

郝晓燕刘伟李茹刘开瑛《中文信息学报》2007,21(5):96-100

汉语框架网络工程是以框架语义学为理论基础的基于语料库的计算词典编纂工程,用于语言学、计算语言学研究及自然语言处理研究。该工程的结果包括两部分: 汉语框架语义知识库(即词典资源)和相关软件。其中,汉语框架网络知识库包括框架库、句子库和词元库三部分,相关软件主要包括汉语框架语义知识库管理系统和基于Web的展示系统。本文介绍了汉语框架语义知识库的语义描述体系以及软件描述体系。相似文献

10.

蒙古语语言知识库的建立与应用

那顺乌日图《中文信息学报》2011,25(6):162-166

建立一个较为完整的、能够为自然语言处理系统提供知识支撑的语言知识库是蒙古文信息处理当务之急。目前蒙古语语言知识库建设已取得阶段性成果,知识库已初具规模,但也仍然存在一些亟待解决的理论和技术问题。该文对蒙古语语言知识库的主要结构和内容,蒙古语语言知识库的应用,尚待解决的问题进行介绍和探讨。相似文献

11.

语言技术平台 总被引：4，自引：0，他引：4

刘挺车万翔李正华《中文信息学报》2011,25(6):53-63

中文信息处理不仅需要基础数据平台的支撑,而且需要基础技术平台的支撑.该文介绍了我们历经八年研制并不断改进的语言技术平台LTP(Language Technology Platform).该平台包括中文词法分析、句法分析以及语义分析等多项中文处理技术,其中的句法语义分析技术在CoNLL 2009国际评测中获得第一名的成绩... 相似文献

12.

现代汉语名词语法属性的计量研究初探

王萌俞士汶段慧明孙薇薇《中文信息学报》2008,22(5):22

以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进“分散度”概念,利用它对“数名”结构进行了定量分析;其次,考察了名词受不同量词修饰的分布情况。最后,把实验结果与《现代汉语语法信息词典》的相应属性进行了比照和分析,在属性概率化的同时也对其正确性进行了验证。相似文献

13.

现状和设想——试论中文信息处理与现代汉语研究 总被引：14，自引：0，他引：14

许嘉璐《中文信息学报》2001,15(2):2-9

本文介绍了中文信息处理技术发展的现状及面临的主要困难,指出:关键在于对现代汉语研究的滞后。到目前为止,中文信息处理主要依赖于对大规模语料的统计,根据概率,对词与词的关系作出界定。多年来中文信息处理技术徘徊难进的现实说明,这一方法已经难以突破“瓶颈”,要使计算机对现代汉语进行自动化的处理,即使之真正“智能化”,就必须把人的语言知识“教”给计算机。这就需要根据计算机的要求加强对现代汉语的研究,特别是对语义的研究。文中介绍了当前朝此方向努力并已有较大进展的三个流派,并分别指出其不足;参考作者主持国家“九五”重点项目“信息处理用现代汉语词汇研究”的经验,提出了统一使用资源、携手并进、共同攻关的设想。相似文献

14.

蒙古语语义信息词典SIKM的研发

下载免费PDF全文

海银花《计算机工程与应用》2016,52(10):128-134

蒙古语语义信息词典（SIKM）作为一部知识库已成为整个蒙古语语言资源的组成部分。自2009年至今,词典的研发取得了阶段性进展。SIKM现已收录5.7万多条记录,涵盖4个词典库。其中包含全部词语的1个“总库”,名词、形容词、动词等3个词类各建一个数据库。每个数据库文件都详细刻画了各词类词语及其语义属性的二维关系。目前已完成5.7万多条词语的语义分类和属性描述,该分类体系和词典的一些属性信息初步被应用到蒙古文信息处理相关基础研究和开发之中。介绍词典规模及结构,语义分类体系、属性字段描述以及研制过程中遇到的一些难点,词典的初步应用情况等内容。相似文献

15.

音字转换中分层解码模型的研究与改进 总被引：1，自引：0，他引：1

张顺昌孙乐《中文信息学报》2009,23(6):79-86

音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。相似文献

16.

大规模现代汉语标注语料库的加工规范 总被引：14，自引：5，他引：9

俞士汶朱学锋段慧明《中文信息学报》2000,14(6):58-64

北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。相似文献

17.

中文核心框架元素标注规则的获取和实验——以认知语义领域为例

张惠春由丽萍《电脑开发与应用》2011,24(12):37-39,42

计算机语义分析是当前制约中文信息检索、信息抽取与机器翻译等应用技术发展的瓶颈问题,而语义角色标注是语义分析的一个主要任务.即以框架语义理论为基础,以汉语框架语义知识库的核心框架元素为语义角色标注的范畴知识体系,以认知语义领域为研究实例,以真实语料为依据,根据短语类型、句法功能以及短语内、外部其他句法语义特征,获取中文语... 相似文献

18.

名人网页的相关度评价 总被引：7，自引：1，他引：7

昝红英苏玉梅孙斌俞士汶《中文信息学报》2003,17(5):28-34

本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了中文名人网页相关度评价的因素、算法和相应的检索结果。针对目前搜索引擎服务的不足之处,该工作旨在改进网上信息服务的质量,提高个性化网上信息服务的能力。本系统在北京大学天网搜索引擎的基础上,利用自然语言处理、特别是中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果排序的合理性,提高了名人网页检索服务的质量。相似文献