首页 | 本学科首页   官方微博 | 高级检索  
     

基于局部标签树匹配的改进网页聚类算法
引用本文:李睿,曾俊瑀,周四望. 基于局部标签树匹配的改进网页聚类算法[J]. 计算机应用, 2010, 30(3): 818-820
作者姓名:李睿  曾俊瑀  周四望
作者单位:1. 湖南大学软件学院2. 湖南大学
基金项目:湖南省自然科学基金资助项目(09JJ3123)
摘    要:Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。

关 键 词:Web信息抽取  网页聚类  树编辑距离  局部标签树匹配  
收稿时间:2009-09-24
修稿时间:2009-11-12

Improved Web page clustering algorithm based on partial tag tree matching
LI Rui,ZENG Jun-yu,ZHOU Si-wang. Improved Web page clustering algorithm based on partial tag tree matching[J]. Journal of Computer Applications, 2010, 30(3): 818-820
Authors:LI Rui  ZENG Jun-yu  ZHOU Si-wang
Abstract:In the process of Web information extraction,Web pages on the target websites should be clustered in order to detect and generate templates that are used to extract required information.Traditional page clustering algorithm based on DOM tree edit distance is not suitable for the complex Document Object Model(DOM)tree structure pages created from dynamic templates.In this paper,an improved Web page clustering algorithm was proposed based on partial tag tree matching.In the proposed algorithm,the appropriate ...
Keywords:Web information extraction  Web page clustering  tree edit distance  partial tag tree matching  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号