首页 | 本学科首页   官方微博 | 高级检索  
     

基于数据区域发现的信息抽取规则生成方法
引用本文:曲著伟,李敏强.基于数据区域发现的信息抽取规则生成方法[J].计算机工程,2009,35(22):59-61.
作者姓名:曲著伟  李敏强
作者单位:1. 天津大学管理学院,天津,300072;浙江财经学院信息学院,杭州,310018
2. 天津大学管理学院,天津,300072
摘    要:提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。

关 键 词:信息抽取  抽取规则生成  Web数据区域  树匹配
修稿时间: 

Information Extraction Rule Generation Method Based on Data Area Discovery
QU Zhu-wei,LI Min-qiang.Information Extraction Rule Generation Method Based on Data Area Discovery[J].Computer Engineering,2009,35(22):59-61.
Authors:QU Zhu-wei  LI Min-qiang
Affiliation:(1. School of Management, Tianjin University, Tianjin 300072;2. Information School, Zhejiang University of Finance & Economics, Hangzhou 310018)
Abstract:This paper proposes an automatic method for detecting the structure characteristic of Web data records and generating Web information extraction rules. Based on Web DOM tree, Web data area is identified from Web DOM tree automatically and segmented into data records, and extraction rules are generated by synthesizing the structure of Web data records. Experimental result shows that the method gains high accuracy in terms of recall and precision.
Keywords:information extraction  extraction rule generation  Web data area  tree matching
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号