首页 | 本学科首页   官方微博 | 高级检索  
     

面向Deep Web数据自动抽取的模板生成方法*
引用本文:杨晓琴,鞠时光,曹庆皇,王秀红.面向Deep Web数据自动抽取的模板生成方法*[J].计算机应用研究,2010,27(1):200-203.
作者姓名:杨晓琴  鞠时光  曹庆皇  王秀红
作者单位:江苏大学,计算机学院,江苏,镇江,212013
基金项目:国家自然科学基金资助项目(60773049); 江苏大学博士生创新基金资助项目(CX08B_18X)
摘    要:Deep Web结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述,提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。

关 键 词:Deep  Web    数据抽取    模板生成    文法推断

Template generation method for Deep Web automatic data extraction
YANG Xiao-qin,JU Shi-guang,CAO Qing-huang,WANG Xiu-hong.Template generation method for Deep Web automatic data extraction[J].Application Research of Computers,2010,27(1):200-203.
Authors:YANG Xiao-qin  JU Shi-guang  CAO Qing-huang  WANG Xiu-hong
Affiliation:(College of Computer, Jiangsu University, Zhenjiang Jiangsu 212013, China)
Abstract:Most Deep Web result pages are dynamically generated using a common template populated with data from databases by user's request.The research was to automatically generate template behind these template-generated Web pages and used the generated template to extract embedded data automatically.Formalized the template generation problem.This paper presented a novel template generation method and used the generated templates to extract data from instance pages.Comparing with existing research,this method was ...
Keywords:Deep Web  data extraction  template generation  grammar inference
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号