首页 | 本学科首页   官方微博 | 高级检索  
     

精细化的中文词性标注评测集的研制
引用本文:唐乾桐,常宝宝,詹卫东. 精细化的中文词性标注评测集的研制[J]. 中文信息学报, 1986, 34(9): 9-18
作者姓名:唐乾桐  常宝宝  詹卫东
作者单位:1.北京大学 计算语言学教育部重点实验室,北京 100871;
2.北京大学 中国语言文学系,北京 100871;
3.北京大学 中国语言学研究中心,北京 100871
基金项目:教育部人文社科重点研究基地重大项目(15JJD740002);国家自然科学基金(61876004)
摘    要:该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5 873句、涵盖了2 326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。

关 键 词:精细化评测  词性标注  语言资源  

A Fine-grained Evaluation Set for Chinese POS Tagging
TANG Qiantong,CHANG Baobao,ZHAN Weidong. A Fine-grained Evaluation Set for Chinese POS Tagging[J]. Journal of Chinese Information Processing, 1986, 34(9): 9-18
Authors:TANG Qiantong  CHANG Baobao  ZHAN Weidong
Affiliation:1.MOE Key Laboratory of Computational Linguistics, Peking University, Beijing 100871, China;
2.Department of Chinese Language and Literature, Peking University, Beijing 100871, China;
3.Center for Chinese Linguistics, Peking University, Beijing 100871, China
Abstract:This paper proposes a fine-grained evaluation scheme on Chinese POS Tagging. The key to this task is to determine the evaluation items and the samples (words) for each item. This paper presents an evaluation set of 5 873 sentences, totaling 2 326 words for 70 evaluation items. Several common open source POS taggers are evaluated. Finally, this paper discusses the advantages of the merits of this evaluation approach, especially in contrast to the classical methods.
Keywords:fine-grained evaluation    POS tagging    language resource  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号