期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

林培俊王宇《计算机工程与应用》2004,40(1):190-191,204

聚类算法是数据挖掘中的重要方法,针对现有适用类属性和混合型属性的数据集聚类算法如k-modes算法、k-prototypes算法和模糊k-prototypes算法等的不足,提出一种新的方法——类属性分解法。这种方法有更高的稳定性和可靠性,并能有效地减少随机性。相似文献

2.

一种基于划分的动态聚类算法 总被引：8，自引：5，他引：8

万志华欧阳为民张平庸《计算机工程与设计》2005,26(1):177-179,229

聚类分析是数据挖掘的一个重要研究分支,已经提出了许多聚类算法,划分方法是其中之一。划分方法的缺点是要求事先给定聚类结果数,对初始划分和输入顺序敏感等。为克服这些缺陷,以划分方法为基础,提出了一种基于划分的动态聚类算法。该算法按密度从大到小,依距离选择较为分散的初始值,同时可以过滤噪声数据,并在聚类的过程中动态地改变聚类结果数,改善了聚类质量,获得了更自然的结果。相似文献

3.

一种改进的空间聚类算法

胡彩平秦小麟《模式识别与人工智能》2007,20(3)

空间聚类是空间数据挖掘中一个非常重要的方法.本文在分析DBSCAN算法不足的基础上,提出一种改进的空间聚类算法(AISCA).为了能够有效处理大规模空间数据库,算法采用一种新的抽样技术.另外,通过引入匹配邻域的概念,使得算法在聚类时不仅考虑空间属性也考虑非空间属性.二维空间数据测试结果表明算法是可行、有效的. 相似文献

4.

一种基于共享近邻亲和度的聚类算法

下载免费PDF全文

邱保志辛杭《计算机工程与应用》2018,54(18):184-187

为解决密度聚类算法在处理高维和多密度数据集时聚类结果不精确的问题,提出一种基于共享近邻亲和度（SNNA）的聚类算法。该算法引入[k]近邻和共享近邻,定义共享近邻亲和度作为对象的局部密度度量。算法首先根据亲和度来提取核心点,然后利用广度优先搜索算法对核心点进行聚类,最后对非核心点进行指派即完成整个数据集的聚类。实验结果表明,该算法能够发现任意形状、大小、密度的聚类;与同类算法相比,SNNA算法在处理高维数据时具有较高的聚类准确率。相似文献

5.

一种基于熵的聚类算法 总被引：1，自引：1，他引：1

王洪春彭宏《计算机科学》2007,34(11):178-179

给出了一种以Reny熵为评价准则的聚类算法,通过非参数估计法估计密度函数,再利用类内熵和类间熵进行聚类和确定聚类的数目。这种算法不需要用户输入与聚类有关的参数,能根据由数据的分布的特性自动获取要聚类的数目,并能发现任意形状和任意大小的聚类。实验结果显示了算法的有效性和优越性。相似文献

6.

基于近邻传播的分布式数据流聚类算法

张建朋金鑫陈福才陈鸿昶侯颖《计算机应用》2013,33(9):2477-2481

针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。相似文献

7.

一种新的基于网格的聚类算法

张伟莉倪志伟赖建章《计算机应用研究》2008,25(5):1337-1339

新的基于网格的聚类算法(CABG)利用网格处理技术对数据进行了预处理,能根据数据分布情况动态计算每个单元格的半径,并成功地将网格预处理后所得单元格数据运用于其后的聚类分析中,从而简化了算法所需的初始参数。实验表明,CABG算法不仅具有DBSCAN算法准确挖掘各种形状的聚类和很好的噪声处理能力的优点,而且具有较高聚类速度以及对初始参数较低的敏感度。相似文献

8.

一种基于层次的移动对象动态聚类算法

马永帅邓峰《微计算机应用》2011,32(4)

由于现有聚类算法不能很好的解决移动环境下移动对象动态变化,本文提出了一种基于层次的移动对象动态聚类算法.该算法通过类中某些特殊点来表示该类,并且记录类合并过程中一些重要特征,使得移动对象动态变化时,简化聚类的过程,从而满足移动环境下对动态聚类算法时间的要求. 相似文献

9.

一种用于蛋白质结构聚类的聚类中心选择算法 总被引：1，自引：0，他引：1

黄旭吕强钱培德《自动化学报》2011,37(6):682-692

提出一种对蛋白质结构聚类中心进行选择的算法. 聚类是蛋白质结构预测过程中必不可少的一个后处理步骤, 而目前在蛋白质结构预测中常用的属性阈值(Quality threshold, QT)聚类算法依赖于由经验得出的聚类半径; 其他聚类算法, 如近邻传播(Affinity propagation, AP)聚类算法也存在影响聚类分布的参数. 为克服对主观经验参数的依赖,本文提出一种聚类中心选择算法(Exemplar selection algorithm, ESA), 用于对不同参数下的聚类结果进行分析,从而选择最佳聚类中心,进而确定聚类半径等经验参数. 该算法在真实蛋白质结构数据集上进行了实验,在未知经验参数情况下选择出最佳聚类中心, 同时也为不同聚类算法寻找适合相应数据集的客观聚类参数提供了支持. 相似文献

10.

一种基于密度的快速聚类算法 总被引：52，自引：0，他引：52

周水庚周傲英曹晶胡运发《计算机研究与发展》2000,37(11):1287-1292

聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明：快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。相似文献

11.

基于共享最近邻的客户交易数据聚类算法

李遥荀亚玲《计算机技术与发展》2022,(1):73-78

利用客户交易数据聚类分析,可得到更优异的客户细分效果,有助于企业更详实地了解消费者,制定精准的营销策略.PurTreeClust是一种新型的客户交易数据聚类算法,定义了一种新型的度量方式PurTree距离,可以很好地分析处理具有层次树结构的交易数据,但未考虑近邻点的影响,仅将交易树分配到距离最近的聚类中心所属类簇,容易... 相似文献

12.

一种面向高维符号数据的随机投影聚类算法 总被引：1，自引：0，他引：1

杜奕卢德唐黄丰王磊《小型微型计算机系统》2006,27(9):1605-1607

现实数据往往分布在高维空间中，从整个向量空间来看，这些数据间的联系非常分散，因此如何降低维数实现高维数据的聚类受到众多研究者的普遍关注．介绍了一种适用于符号型高维数据的随机投影聚类算法．其根据频率选择与聚类相关的维向量，随机产生并根据投影聚类效果择优选择聚类中心及相关维向量，将投影聚类算法扩展至符号数据空间．实验结果证实了这种算法的实用性与有效性．相似文献

13.

一种混合属性数据流聚类算法 总被引：5，自引：0，他引：5

杨春宇周杰《计算机学报》2007,30(8):1364-1371

数据流聚类是数据流挖掘中的重要问题.现实世界中的数据流往往同时具有连续属性和标称属性,但现有算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法.目前还没有能在算法层次上进行混合属性数据流聚类的算法.文中提出了一种针对混合属性数据流的聚类算法;建立了数据流到达的泊松过程模型;用频度直方图对离散属性进行了描述;给出了混合属性条件下微聚类生成、更新、合并和删除算法.在公共数据集上的实验表明,文中提出的算法具有鲁棒的性能. 相似文献

14.

TCSOM: Clustering Transactions Using Self-Organizing Map

Zengyou?He Email author Xiaofei?Xu Shengchun?Deng 《Neural Processing Letters》2005,22(3):249-262

Self-Organizing Map (SOM) networks have been successfully applied as a clustering method to numeric datasets. However, it is not feasible to directly apply SOM for clustering transactional data. This paper proposes the Transactions Clustering using SOM (TCSOM) algorithm for clustering binary transactional data. In the TCSOM algorithm, a normalized Dot Product norm based dissimilarity measure is utilized for measuring the distance between input vector and output neuron. And a modified weight adaptation function is employed for adjusting weights of the winner and its neighbors. More importantly, TCSOM is a one-pass algorithm, which is extremely suitable for data mining applications. Experimental results on real datasets show that TCSOM algorithm is superior to those state-of-the-art transactional data clustering algorithms with respect to clustering accuracy. 相似文献

15.

一种基于近邻表示的聚类方法

周国兵吴建鑫周嵩《软件学报》2015,26(11):2847-2855

当今社会处在信息急剧膨胀的时代,数据的规模和维度都在不断增大,传统的聚类方法有很多难以适应这一趋势.尤其是移动计算平台的高速发展,其平台自身的特性限制了算法的内存使用规模,因此,以往的很多方法若不进行改进,在这类平台上将无法运行.提出了一种基于近邻表示的聚类方法,该方法基于近邻的思想构造出新的表示形式,这种表示可以进行压缩,因此有效地减少了聚类所需要的存储开销.实现了直接对近邻表示压缩后的数据进行聚类的算法,称为Bit k-means.实验结果表明,该方法取得了较好的效果,在提高准确率的同时,大幅度降低了存储空间开销. 相似文献

16.

基于共享近邻的自适应谱聚类

刘馨月李静伟于红尤全增林鸿飞《小型微型计算机系统》2011,32(9)

谱聚类是一种极具竞争力的聚类算法.相似度定义对谱聚类算法的性能有至关重要的影响.本文用两点的共享近邻数目表征局部密度,从而获知隐含的簇结构信息.将这一信息与自调节的高斯核函数结合,提出了基于共享近邻的自适应相似度及相应的谱聚类算法.它满足聚类假设的要求,具有局部密度的自适应性,能有效识别数据点之间的内在联系.典型人工和真实数据集上的实验结果证明了算法的有效性. 相似文献

17.

基于最近邻相似度的孤立点检测及半监督聚类算法

郑灵芝黄德才《计算机系统应用》2012,21(2):117-121

传统的聚类算法是一种无监督的学习过程,聚类的精度受到相似性度量方式以及数据集中孤立点的影响,并且算法也没有很好的利用先验知识,无法体现用户的需求。因此提出了基于共享最近邻的孤立点检测及半监督聚类算法。该算法采用共享最近邻为相似度,根据数据点的最近邻居数目来判断是否为孤立点,并在删除孤立点的数据集上进行半监督聚类。在半监督聚类过程中加入了经过扩展的先验知识,同时根据图形分割原理对数据集进行聚类。文中使用真实的数据集进行仿真,其仿真结果表明,本文所提出的算法能有效的检测出孤立点,并具有很好的聚类效果。相似文献

18.

Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values 总被引：76，自引：0，他引：76

Zhexue Huang 《Data mining and knowledge discovery》1998,2(3):283-304

The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. In this paper we present two algorithms which extend the k-means algorithm to categorical domains and domains with mixed numeric and categorical values. The k-modes algorithm uses a simple matching dissimilarity measure to deal with categorical objects, replaces the means of clusters with modes, and uses a frequency-based method to update modes in the clustering process to minimise the clustering cost function. With these extensions the k-modes algorithm enables the clustering of categorical data in a fashion similar to k-means. The k-prototypes algorithm, through the definition of a combined dissimilarity measure, further integrates the k-means and k-modes algorithms to allow for clustering objects described by mixed numeric and categorical attributes. We use the well known soybean disease and credit approval data sets to demonstrate the clustering performance of the two algorithms. Our experiments on two real world data sets with half a million objects each show that the two algorithms are efficient when clustering large data sets, which is critical to data mining applications. 相似文献

19.

聚类算法在应急系统中的应用

张岩赵政《计算机工程与应用》2006,42(31):191-193

针对城市中的应急事件,运用数据挖掘技术为应急系统提供高质量的信息支持。应用数据挖掘中的聚类分析手段解决应急事件的分类问题是研究的重点。实现了k-means聚类算法及其扩展算法k-modes,并将它们应用到应急事件的数据库中,最终实现了应急事件的高效分类。相似文献