首页 | 本学科首页   官方微博 | 高级检索  
     

基于标签路径的Web结构化数据自动抽取
引用本文:李贵,陈成,李征宇,韩子扬,孙平,孙焕 良.基于标签路径的Web结构化数据自动抽取[J].计算机科学,2013,40(Z6):141-144,165.
作者姓名:李贵  陈成  李征宇  韩子扬  孙平  孙焕 良
作者单位:沈阳建筑大学信息与控制工程系 沈阳110168;沈阳建筑大学信息与控制工程系 沈阳110168;沈阳建筑大学信息与控制工程系 沈阳110168;沈阳建筑大学信息与控制工程系 沈阳110168;沈阳建筑大学信息与控制工程系 沈阳110168;沈阳建筑大学信息与控制工程系 沈阳110168
基金项目:本文受国家自然科学基金(61070024)资助
摘    要:提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。

关 键 词:标签路径  结构化数据抽取  聚类

Automatic Web Structured Data Extraction Based on Tag Path
LI Gui,CHEN Cheng,LI Zheng-yu,HAN Zi-yang,SUN Ping and SUN Huan-liang.Automatic Web Structured Data Extraction Based on Tag Path[J].Computer Science,2013,40(Z6):141-144,165.
Authors:LI Gui  CHEN Cheng  LI Zheng-yu  HAN Zi-yang  SUN Ping and SUN Huan-liang
Affiliation:Faculty of Information & Control Engineering,Shenyang Jianzhu University,Shenyang 110168,China;Faculty of Information & Control Engineering,Shenyang Jianzhu University,Shenyang 110168,China;Faculty of Information & Control Engineering,Shenyang Jianzhu University,Shenyang 110168,China;Faculty of Information & Control Engineering,Shenyang Jianzhu University,Shenyang 110168,China;Faculty of Information & Control Engineering,Shenyang Jianzhu University,Shenyang 110168,China;Faculty of Information & Control Engineering,Shenyang Jianzhu University,Shenyang 110168,China
Abstract:
Keywords:Tag path  Extracting structured data  Clustering
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号