首页 | 本学科首页   官方微博 | 高级检索  
     

基于分类的汉语语料库词性标注一致性检查
引用本文:张虎,郑家恒.基于分类的汉语语料库词性标注一致性检查[J].计算机工程,2008,34(8):90-92.
作者姓名:张虎  郑家恒
作者单位:山西大学计算机与信息技术学院,太原,030006
基金项目:国家自然科学基金 , 山西省自然科学基金 , 山西大学校科研和教改项目
摘    要:制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。

关 键 词:分类  词性标注  兼类词  词性标注一致性
文章编号:1000-3428(2008)08-0090-03
修稿时间:2007年7月16日

Consistency Check on POS Tagging of Chinese Corpus Based on Classification
ZHANG Hu,ZHENG Jia-heng.Consistency Check on POS Tagging of Chinese Corpus Based on Classification[J].Computer Engineering,2008,34(8):90-92.
Authors:ZHANG Hu  ZHENG Jia-heng
Affiliation:(School of Computer & Information Technology, Shanxi University, Taiyuan 030006)
Abstract:It is a key problem to guarantee the consistency of POS(Part of Speech) tagging of Chinese corpus. After analyzing the POS tagging in the large-scale corpus, the new consistency check method of POS tagging are put forward. This paper builds the vector model of the context of trans-classed word, then uses k-NN to classify the POS tagging sequence vectors, judges their consistency, and obtains circumstances of the consistency of POS tagging of every text. The methods are evaluated on our 1 5000-word corpus.
Keywords:classification  POS tagging  multi-category words  consistency of speech tagging
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号