首页 | 本学科首页   官方微博 | 高级检索  
     

基于弱监督学习的海量网络数据关系抽取
引用本文:陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络数据关系抽取[J].计算机研究与发展,2013,50(9).
作者姓名:陈立玮  冯岩松  赵东岩
作者单位:北京大学计算机科学技术研究所 北京 100871
基金项目:国家"八六三"高技术研究发展计划基金项目,国家自然科学基金项目
摘    要:在大数据时代,对于海量网络数据的信息抽取与应用已成为自然语言处理和信息检索技术发展的重要主题.其中,基于弱监督的关系抽取方法,因为具有不需要过多人工参与、适应性强的特点,受到了广泛的关注.目前针对它的研究主要集中在英语资源上,主要使用传统的词法和句法特征.然而,词法特征有严重的稀疏性问题,句法特征则对一些语言分析工具的性能有较强的依赖性.提出利用n-gram 特征来缓解传统词法特征稀疏性的问题.特别地,这种特征还可以弥补传统句法特征在其他语言上不可靠的情况,对于关系抽取的跨语言应用有重要作用.在此基础上,针对弱监督学习中标注数据不完全可靠的情况,提出基于bootstrapping思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析.在大规模的中文和英文数据上进行实验的结果显示,把传统特征与n-gram特征相结合并进行协同训练,在中文和英文数据集上均可以提升弱监督关系抽取的效果,可以适应多语言的关系抽取需求.

关 键 词:关系抽取  弱监督学习  最大熵模型  协同训练  知识库构建

Extracting Relations from the Web via Weakly Supervised Learning
Chen Liwei , Feng Yansong , Zhao Dongyan.Extracting Relations from the Web via Weakly Supervised Learning[J].Journal of Computer Research and Development,2013,50(9).
Authors:Chen Liwei  Feng Yansong  Zhao Dongyan
Abstract:
Keywords:relation extraction  weakly supervised learning  maximum entropy  co-training  knowledge base construction
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号