首页 | 本学科首页   官方微博 | 高级检索  
     

网页结构模板生成新方法研究
引用本文:冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19.
作者姓名:冯少卿  都云程
作者单位:北京信息工程学院中文信息处理研究中心,北京100101
基金项目:国家高技术研究发展计划(863计划),北京市属市管高校人才强教计划,北京市教委科技发展计划项目
摘    要:Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性.为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法.该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集.利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取.实验表明,该方法准确率可达97%.

关 键 词:结构分析  网页相似  样本集  模板
文章编号:1008-1658(2007)03-0015-05
收稿时间:2007-06-12

New method of generating template from webpage structure
FENG Shao-qing,DU Yun-cheng.New method of generating template from webpage structure[J].Journal of Beijing Institute of Machinery,2007,22(3):15-19.
Authors:FENG Shao-qing  DU Yun-cheng
Affiliation:Chinese Information Processing Research Center,Beijing Information Technology Institute ,Beijing 100101 ,China
Abstract:
Keywords:DOM
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号