首页 | 本学科首页   官方微博 | 高级检索  
     

分布式最小生成树聚类的设计与实现
引用本文:金欣,王晶,沈奇威.分布式最小生成树聚类的设计与实现[J].计算机系统应用,2011,20(7):69-75.
作者姓名:金欣  王晶  沈奇威
作者单位:东信北邮信息技术有限公司,北京,100191;北京邮电大学,网络与交换技术国家重点实验室,北京,10087
基金项目:国家杰出青年科学基金,国家973计划,国家自然科学基金,中央高校基本科研业务费专项资金,电子信息产业发展基金
摘    要:聚类是数据挖掘的主要问题之一,聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中的有价值的信息,近年来数据挖掘在电信领域的应用越来越广泛,但是由于数据量、数据类型、计算复杂度等原因,聚类算法应用的却不多.提出一种新的适合于分布式计算的最小生成树算法,结合适合的相似度度量,设计了一种用于解决海量数据...

关 键 词:聚类  分布式  hadoop  mapreduce  数据挖掘  最小生成树
收稿时间:2010/11/3 0:00:00
修稿时间:2010/12/15 0:00:00

Design and Implementation of Distributed MST Clustering
JIN Xin,WANG Jing and SHEN Qi-Wei.Design and Implementation of Distributed MST Clustering[J].Computer Systems& Applications,2011,20(7):69-75.
Authors:JIN Xin  WANG Jing and SHEN Qi-Wei
Affiliation:JIN Xin,WANG Jing,SHEN Qi-Wei(State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications,Beijing 100876,China)(EB Information Technology Co.Ltd.,Beijing 100083,China)
Abstract:Clustering is one of the most important problems in data mining.Clustering algorithm can classify data without any knowledge about it,and find out the information that valuable.Recently,data mining is more and more widely used in the telecommunication area,but because of some problems,such as the size of the data,the type of the data and the complication of the computation,clustering is not used widely.This article gives a MST algorithm that suit for distribute computing.Combining with the method to represe...
Keywords:clustering  distribute  hadoop  mapreduce  data mining  MST  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号