首页 | 本学科首页   官方微博 | 高级检索  
     

基于DOM树与领域本体的Web抽取方法
引用本文:郭建兵,崔志明,陈明,赵朋朋. 基于DOM树与领域本体的Web抽取方法[J]. 计算机工程, 2012, 38(5): 56-58
作者姓名:郭建兵  崔志明  陈明  赵朋朋
作者单位:1. 苏州大学智能信息处理及应用研究所,江苏苏州215006;苏州普达新信息技术有限公司,江苏苏州215021
2. 苏州大学智能信息处理及应用研究所,江苏苏州,215006
基金项目:国家自然科学基金,江苏省企业博士创新基金,江苏省高校自然科学研究基金,苏州市科技型企业技术创新专项基金
摘    要:为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。

关 键 词:自动抽取  DOM树  领域本体  数据区域定位  简单树匹配
收稿时间:2011-09-13

Web Extraction Method Based on DOM Tree and Domain Ontology
GUO Jian-bing , CUI Zhi-ming , CHEN Ming , ZHAO Peng-peng. Web Extraction Method Based on DOM Tree and Domain Ontology[J]. Computer Engineering, 2012, 38(5): 56-58
Authors:GUO Jian-bing    CUI Zhi-ming    CHEN Ming    ZHAO Peng-peng
Affiliation:1 (1.Institute of Intelligent Information Processing and Application,Soochow University,Suzhou 215006,China;2.Suzhou Production Information Technology Co.Ltd.,Suzhou 215021,China)
Abstract:To solve the problem of automatic extraction from different DeepWeb result page structures,this paper proposes a method which combines the Web structure and the content of Web pages.This method uses the characteristics of data content and the DOM tree nodes which are marked by the domain ontology library positioning data area.An improved simple tree matching algorithm is used to identify data records.Experimental results show that the F-measure value of this method is 2.93%~6.67% higher than that of traditional methods.
Keywords:automatic extraction  DOM tree  domain ontology  data area positioning  simple tree matching
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号