首页 | 本学科首页   官方微博 | 高级检索  
     

一种针对商品数据记录的自动抽取方法
引用本文:杨舟,卓林,赵朋朋,崔志明. 一种针对商品数据记录的自动抽取方法[J]. 计算机工程, 2010, 36(23): 262-265
作者姓名:杨舟  卓林  赵朋朋  崔志明
作者单位:(1.苏州大学智能信息处理及应用研究所,江苏 苏州 215006;2.江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104)
基金项目:国家自然科学基金资助项目,2008年江苏省重大科技支撑与自主创新基金资助项目,江苏省基础研究计划企业博士创新基金资助项目
摘    要:提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点,通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值,依据节点值的相似度对节点进行分组,再从不同分组中过滤出包含数据记录节点的集合,从而抽取整个页面的数据记录。实验结果证明该方法有效且抽取效率较高。

关 键 词:Web信息抽取  数据抽取  信息集成  商品数据记录

Automatic Extraction Method for Product Data Records
YANG Zhou,ZHUO Lin,ZHAO Peng-peng,CUI Zhi-ming. Automatic Extraction Method for Product Data Records[J]. Computer Engineering, 2010, 36(23): 262-265
Authors:YANG Zhou  ZHUO Lin  ZHAO Peng-peng  CUI Zhi-ming
Affiliation:(1.Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China;2.Jiangsu Province Support Software Engineering R&D Center for Modern Information
Abstract:This paper proposes an automatic extraction method for Product Data Record(PDR) of list page on E-commerce website.According to the characteristics of the product records,it calculates value for each node in the DOM tree of page by the node type information of text,image,layout and so on,classifies these nodes according to their similarity of value,and gets the final node collection which contains data record,so that the data records of the whole page are extracted.Experimental results show that the method is effective and with high efficiency.
Keywords:Web information extraction  data extraction  information integration  Product Data Record(PDR)
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号