首页 | 本学科首页   官方微博 | 高级检索  
     

PageCluster:一种Web页面层次聚类方法
引用本文:吴萍,宋瀚涛,姜峰.PageCluster:一种Web页面层次聚类方法[J].计算机工程与应用,2004,40(29):84-86.
作者姓名:吴萍  宋瀚涛  姜峰
作者单位:1. 北京理工大学计算机科学工程系,北京,100081;兰州理工大学电气工程与信息工程学院,兰州,730050
2. 北京理工大学计算机科学工程系,北京,100081
3. 兰州理工大学电气工程与信息工程学院,兰州,730050
摘    要:提出了Web页面聚类算法PageCluster及相应的改进算法ImPageCluster。该方法在兼顾Web站点结构和页面链接的同时,基于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算法的可行性和高效性。

关 键 词:聚类  Web页面  超链接  相似矩阵  PageCluster  ImPageCluster
文章编号:1002-8331-(2004)29-0084-03

PageCluster:A Method of Web Page Hierarchical Clustering
Wu Ping , Song Hantao Jiang Feng.PageCluster:A Method of Web Page Hierarchical Clustering[J].Computer Engineering and Applications,2004,40(29):84-86.
Authors:Wu Ping  Song Hantao Jiang Feng
Affiliation:Wu Ping 1,2 Song Hantao 1 Jiang Feng 21
Abstract:A Web page clustering algorithm called PageCluster,with the improved algorithm called ImPageCluster is proposed.These methods take not only the web structure and page hyperlinks,but also the importance of each page which is described as in-weight and out-weight into account.Compared with the traditional clustering methods,these algorithms don't need to be given the similarity threshold.And the experimental results show that these algorithms are feasible and high-efficient.
Keywords:clustering  Web page  hyperlink  similarity matrix  PageCluster  ImPageCluster
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号