首页 | 本学科首页   官方微博 | 高级检索  
     

基于BCC的离合词离析形式自动识别研究
引用本文:臧娇娇,荀恩东.基于BCC的离合词离析形式自动识别研究[J].中文信息学报,2017,31(1):75-83.
作者姓名:臧娇娇  荀恩东
作者单位:北京语言大学 大数据与教育技术研究所,北京 100083
基金项目:国家高技术研究发展计划(863计划)(2015AA015409)
摘    要:该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法。经过优化后,该算法在20亿字的语料中达到了91.6%的正确率。离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素。

关 键 词:离合词  BCC  离析形式  自动识别  

Automatic Recognition of Separable Words Based on BCC
ZANG Jiaojiao,XUN Endong.Automatic Recognition of Separable Words Based on BCC[J].Journal of Chinese Information Processing,2017,31(1):75-83.
Authors:ZANG Jiaojiao  XUN Endong
Affiliation:Institute of Big Data and Language Education, Beijing Language and Culture University, Beijing 100083, China
Abstract:This paper conducts a research on the automatic recognition of separable words from the perspective of Chinese information processing. It summarizes recognition rules and design a recognition algorithm considering the separable forms derived from the large-scale corpus. The algorithm achieves 91.6% accuracy after a continuous optimization in the corpus of two billion words. Error analysis reveals that the morphemes with strong word-fromation ability, incorrect word segmentation and POS tagging, incomplete rules, and errors in the corpus accounts for most of the mistakes..
Keywords:separable words  BCC  separable forms  automatic recognition  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号