首页 | 本学科首页   官方微博 | 高级检索  
     

基于条件随机场模型的汉语功能块自动标注
引用本文:李国臣, 王瑞波, 李济洪. 基于条件随机场模型的汉语功能块自动标注[J]. 计算机研究与发展, 2010, 47(2): 336-343.
作者姓名:李国臣  王瑞波  李济洪
作者单位:1. 山西大学计算机与信息技术学院,太原,030006
2. 山西大学计算中心,太原,030006
基金项目:国家自然科学基金项目(60873128);;山西省科技攻关计划基金项目(2007031126_01)~~
摘    要:汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.

关 键 词:汉语基本块  汉语功能块  条件随机场模型  句法分析  序列标注

Automatic Labeling of Chinese Functional Chunks Based on Conditional Random Fields Model
Li Guochen, Wang Ruibo, Li Jihong. Automatic Labeling of Chinese Functional Chunks Based on Conditional Random Fields Model[J]. Journal of Computer Research and Development, 2010, 47(2): 336-343.
Authors:Li Guochen  Wang Ruibo  Li Jihong
Affiliation:School of Computer & Information Technology;Shanxi University;Taiyuan 030006;Computer Center of Shanxi University;Taiyuan 030006
Abstract:In the schema of Chinese chunking,the words are firstly combined into base-chunks,and then the base-chunks are further combined into functional chunks,and finally formalized into a hierarchical syntactic structure.In this paper,the problem of automatic labeling of Chinese functional chunks is modeled as a sequential labeling task,and then words and base chunks are regarded as labeling units of the Chinese functional chunk labeling models.For each of the labeling models a series of new features on the level ...
Keywords:Chinese base chunk  Chinese functional chunk  conditional random fields  syntactic parsing  sequence labeling  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机研究与发展》浏览原始摘要信息
点击此处可从《计算机研究与发展》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号