首页 | 本学科首页   官方微博 | 高级检索  
     

基于文本—链接模型和近邻传播算法的网页聚类*
引用本文:郭景峰,马鑫,代军丽.基于文本—链接模型和近邻传播算法的网页聚类*[J].计算机应用研究,2010,27(4):1255-1258.
作者姓名:郭景峰  马鑫  代军丽
作者单位:燕山大学,信息科学与工程学院,河北,秦皇岛,066004
基金项目:国家自然科学基金资助项目(60673136)
摘    要:关于网页聚类的研究已经提出多种基于文本—链接模型的聚类算法,其中应用最广泛的便是MS模型。针对MS模型在效率和计算精度方面的不足,提出了改进的TLMS模型。新模型通过将词聚成词簇、链接向量聚成链接簇的方法将MS模型的词空间和链接空间进行大幅的压缩,并应用近邻传播算法替代传统的K-means算法对网页进行聚类。实验证明,TLMS模型+近邻传播算法聚类精度高、执行效率好。

关 键 词:文本—链接模型    MS模型    相似度    近邻传播聚类算法

Page clustering based on text-link model and affinity propagation algorithm
GUO Jing-feng,MA Xin,DAI Jun-li.Page clustering based on text-link model and affinity propagation algorithm[J].Application Research of Computers,2010,27(4):1255-1258.
Authors:GUO Jing-feng  MA Xin  DAI Jun-li
Affiliation:(College of Information Science & Engineering, Yanshan University, Qinhuangdao Hebei 066004, China )
Abstract:Regarding clustering research of Web pages, several kinds of clustering algorithms based on text-link model have been proposed. Among all the algorithms, the MS model is the most widely used. This article proposed the TMSL model to improve the shortage of MS model on its effectiveness and accuracy. New model compressed the space of word and link vector by transforming word into the word cluster , link vector into link cluster. Affinity propagation clustering algorithm substituted for traditional K-means algorithm in clustering of the Web pages. The experimental results verify that the proposed method has highly accuracy and effectiveness.
Keywords:text-link model  MS model  similarity  affinity propagation clustering algorithm
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号