首页 | 本学科首页   官方微博 | 高级检索  
     

基于集成学习和二维关联边条件随机场的Web数据语义标注方法
引用本文:丁艳辉,李庆忠,董永权,彭朝晖. 基于集成学习和二维关联边条件随机场的Web数据语义标注方法[J]. 计算机学报, 2010, 33(2). DOI: 10.3724/SP.J.1016.2010.00267
作者姓名:丁艳辉  李庆忠  董永权  彭朝晖
作者单位:山东大学计算机科学与技术学院,济南,250014
基金项目:国家自然科学基金(90818001);;山东省自然科学基金(Y2007G24)资助~~
摘    要:大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.

关 键 词:Web信息抽取  语义标注  集成学习  条件随机场  长距离依赖  

Semantic Annotation of Web Data Based on Ensemble Learning and 2D Correlative-Chain Conditional Random Fields
DING Yan-Hui,LI Qing-Zhong,DONG Yong-Quan,PENG Zhao-Hui. Semantic Annotation of Web Data Based on Ensemble Learning and 2D Correlative-Chain Conditional Random Fields[J]. Chinese Journal of Computers, 2010, 33(2). DOI: 10.3724/SP.J.1016.2010.00267
Authors:DING Yan-Hui  LI Qing-Zhong  DONG Yong-Quan  PENG Zhao-Hui
Affiliation:School of Computer Science and Technology/a>;Shandong University/a>;Jinan 250014
Abstract:Large-scale Web information extraction needs to extract information from many Web sites accurately and automatically.However,most current Web information extraction methods place emphasis on single Web site,which causes that they can't meet the need of large-scale Web information extraction.The empirical study shows that automatic semantic annotation of Web data,combined with current wrapper learning techniques,may meet the need of large-scale Web information extraction.In this paper,a method based on ensem...
Keywords:Web information extraction  semantic annotation  ensemble learning  conditional random fields  long distance dependencies  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号