首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于Bootstrapping构建训练语料的方法
引用本文:尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(Z2):394-397.
作者姓名:尹继豪  樊孝忠  刘士宁  于江德
作者单位:尹继豪(北京理工大学计算机科学技术学院,北京,100081);樊孝忠(北京理工大学计算机科学技术学院,北京,100081);刘士宁(青岛市国土资源和房屋管理局,青岛,266002);于江德(北京理工大学计算机科学技术学院,北京,100081;安阳师范学院计算机科学系,安阳,455000)
基金项目:国家自然科学基金 , 高等学校博士学科点专项科研项目
摘    要:提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与.

关 键 词:bootstrapping  命名实体识别  训练语料  类语言模型  Bootstrapping  训练语料  方法  Based  Construction  Corpus  情况  结果  实验  质量  语料标注  循环  处理  随机选取  语言模型  使用  种子  修正  自动  算法
修稿时间:2007年3月5日

Training Corpus Construction Based on Bootstrapping
Yin Jihao,Fan Xiaozhong,Liu Shining,Yu Jiangde.Training Corpus Construction Based on Bootstrapping[J].Journal of Computer Research and Development,2007,44(Z2):394-397.
Authors:Yin Jihao  Fan Xiaozhong  Liu Shining  Yu Jiangde
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号