首页 | 本学科首页   官方微博 | 高级检索  
     

基于大规模语料库的现代汉语动宾搭配知识库构建
引用本文:王贵荣,饶高琦,荀恩东. 基于大规模语料库的现代汉语动宾搭配知识库构建[J]. 中文信息学报, 2021, 35(1): 34-42,53
作者姓名:王贵荣  饶高琦  荀恩东
作者单位:1.北京语言大学 汉语国际教育研究院,北京 100083;
2.北京语言大学 信息科学学院,北京 100083
基金项目:国家语委信息化专项项目(ZDI135-114)
摘    要:汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言处理提供基础知识,同时也为语言本体研究、语言教学等提供大量实例。该文首先从语言本体的角度出发,总结了动宾搭配的知识体系,并根据该体系制定相应形式化检索式140个,从BCC语料库中抽取动宾搭配知识,并对抽取结果进行了初步消歧,最终获得动宾搭配300万对,形成动宾搭配知识库。

关 键 词:动宾搭配  知识抽取  知识库  BCC语料库

Construction of Verb-object Knowledge Base from BCC Corpus
WANG Guirong,RAO Gaoqi,XUN Endong. Construction of Verb-object Knowledge Base from BCC Corpus[J]. Journal of Chinese Information Processing, 2021, 35(1): 34-42,53
Authors:WANG Guirong  RAO Gaoqi  XUN Endong
Affiliation:1.Institute of International Chinese Language Education, Beijing Language and Culture University, Beijing 100083, China;
2.School of Information Science, Beijing Language and Culture University, Beijing 100083, China
Abstract:The word collocation knowledge is essential to both linguistic ontology and natural language processing tasks, in which verb-object collocation is distinguished by its syntax role, its quantity and its diversity. This paper constructs a Chinese verb-object knowledge base to provide basic knowledge based on a large scale corpus. It first summarizes the knowledge system of verb-object collocation from the perspective of linguistic ontology, and formulates 140 queries to retrieve verb-object instances from the BCC corpus. Finally, three million pairs of verb-object collocation are obtained after disambiguation.
Keywords:verb-object collocation    knowledge extraction    knowledge base    BCC corpus  
本文献已被 维普 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号