首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于Nutch的网页聚类系统的设计与实现
引用本文:阳小兰,钱程,赵海廷.一种基于Nutch的网页聚类系统的设计与实现[J].计算机工程与应用,2011,47(5):118-122.
作者姓名:阳小兰  钱程  赵海廷
作者单位:武汉科技大学中南分校 信息工程学院,武汉 430223
摘    要:设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。

关 键 词:Nutch  聚类  k-means  后缀树  
修稿时间: 

Design and implementation on Web clustering system based on Nutch
YANG Xiaolan,QIAN Cheng,ZHAO Haiting.Design and implementation on Web clustering system based on Nutch[J].Computer Engineering and Applications,2011,47(5):118-122.
Authors:YANG Xiaolan  QIAN Cheng  ZHAO Haiting
Affiliation:College of Information Engineering,Wuhan University of Science and Technology Zhongnan Branch,Wuhan 430223,China
Abstract:A search results clustering system which can be able to search cluster results obtained from Nutch is designed both in English and Chinese language environment.This system is based on k-means algorithm and suffix tree clustering algorithm and is made of Nutch module,TF-IDF weight calculation module and text clustering module.The k-means algorithm and suffix tree clustering algorithm are contrasted based on the experiments.
Keywords:Nutch  clustering  k-means  suffix tree
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号