首页 | 官方网站   微博 | 高级检索  
     

大规模交易数据库的一种有效聚类算法
引用本文:陈宁,陈安,周龙骧.大规模交易数据库的一种有效聚类算法[J].软件学报,2001,12(4):475-484.
作者姓名:陈宁  陈安  周龙骧
作者单位:1. 中国科学院数学与系统科学研究院,
2. 北京航空航天大学管理学院,
3. Economics and Mathematics Institute, The Chinese Academy of Sciences,
摘    要:研究大规模交易数据库的聚类问题,提出了一种二次聚类算法——CATD.该算法首先将数据库划分成若干分区,在每个分区内利用层次聚类算法进行局部聚类,把交易初步划分成若干亚聚类,亚聚类的个数由聚类间的距离参数控制.然后对所有的亚聚类进行全局聚类,同时识别出噪声.由于采用了分区方法和聚类的支持向量表示法,该算法只需扫描一次数据库,聚类过程在内存中进行,因此能处理大规模的数据库.

关 键 词:数据挖掘  聚类分析  层次聚类  单连距离
收稿时间:2000/7/28 0:00:00
修稿时间:2000年7月28日

An Effective Clustering Algorithm in Large Transaction Databases
CHEN Ning,CHEN An and ZHOU Long-xiang.An Effective Clustering Algorithm in Large Transaction Databases[J].Journal of Software,2001,12(4):475-484.
Authors:CHEN Ning  CHEN An and ZHOU Long-xiang
Abstract:Clustering of transactions can find potential useful patterns to improve the product profit. In this paper, a two-step clustering algorithm——CATD is proposed, applicable in large transaction databases. First, the database is divided into partitions in which transactions are partially clustered into a number of subclusters. A hierarchical clustering algorithm is used to control the distance between these subclusters. In the global clustering, a k-medoids clustering algorithm is performed on the subclusters to get a set of k global clusters and identify noise. The algorithm is feasible for large databases because it only scans the original databases once and the clustering process can be performed in main memory due to the partitioning scheme and the support vector representative of subclusters.
Keywords:data mining  clustering  single linkage
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号