首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
基于新的相异度量的模糊K-Modes聚类算法   总被引:3,自引:2,他引:1  
白亮  曹付元  梁吉业 《计算机工程》2009,35(16):192-194
传统的模糊K-Modes聚类算法采用简单匹配方法度量对象与Mode之间的相异程度,没有充分考虑Mode对类的代表程度,容易造成信息的丢失,弱化了类内的相似性。针对上述问题,通过对象对类的隶属度反映Mode对类的代表程度,提出一种新的相异度量,并将它应用于传统的模糊K—Modes聚类算法。与传统的K—Modes和模糊K-Modes聚类算法相比,该相异度量是有效的。  相似文献   

2.
Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙K-Modes算法,通过粗糙集的上、下近似度量数据样本在类内的重要性程度,不仅可以获得比新K-Modes算法更好的聚类效果,而且可以在保证聚类效果的基础上降低白亮等人提出的基于粗糙集改进的K-Modes算法的计算复杂度。对几个UCI的数据集的测试实验结果显示出新算法的优良性能。  相似文献   

3.
基于新的距离度量的K-Modes聚类算法   总被引:4,自引:1,他引:4  
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的.  相似文献   

4.
基于粗糙集的改进K—Modes聚类算法   总被引:3,自引:0,他引:3  
传统的K-Modes算法采用简单匹配的方法来计算对象之间的距离,并没有充分考虑同一属性下的两个不同值之间的相似性.基于粗糙集中的上、下近似,提出了一种新的距离度量,并重新定义了类中心,对传统K-Modes算法进行了改进.与其他改进K-Modes算法进行了比较,实验结果表明,基于粗糙集的改进K-Modes算法有效地提高了聚类精度.  相似文献   

5.
模糊K-Modes聚类精确度分析   总被引:4,自引:1,他引:4  
赵恒  杨万海 《计算机工程》2003,29(12):27-28,175
模糊K-Modes聚类算法是对具有分类属性的数据进行聚类的一种有效的算法。为了评价聚类结果,以具有明确分类结构的数据作为输入数据,将模糊K-Modes聚类结果与原始数据的分类结构进行对比,分析了确定它们之间对应关系的方法,在期望聚类结果应该具有的特点的基础上,对现有的精确度定义和计算方法进行修正,在划分相似度的基础上,重新定义模糊K-Modes聚类精确度。  相似文献   

6.
黄德才  钱潮恺 《计算机科学》2015,42(Z11):55-57, 71
针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离度量测度,并将其应用到近邻传播聚类算法中,提出了一种基于维度属性距离的混合属性近邻传播聚类算法。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对聚类结果的影响。将算法在UCI数据库的2个混合属性数据集上进行验证,同时对比了经典的K-Prototypes算法以及K-Modes算法。实验结果表明,改进后的算法具有更好的聚类质量以及执行效率,算法的优越性得到了验证。  相似文献   

7.
为了克服传统的模糊K-Modes算法分类正确率低、收敛速度慢的缺点,文中将免疫遗传算法应用到聚类分析中,提出了一种基于模糊K-Modes和免疫遗传算法的聚类算法.通过引入免疫算子,不仅提高了收敛速度,而且避免了陷于局部极小,从而能较快地收敛到全局最优解.免疫算子包括抽取疫苗、接种疫苗和选择疫苗.实验结果证明,此算法具有较好的聚类效果,且稳定性强.  相似文献   

8.
聚类分析是数据挖掘中一种非常重要的技术.聚类算法中的关键问题是相异度或相似度的度量,聚类结果直接依赖于相异度或相似度度量,尤其对于谱聚类方法更是如此.谱聚类算法是近期兴起的一种基于相似度矩阵的聚类算法.相比于传统的划分型聚类算法,谱聚类算法不受限于球状聚类簇,能够发现不规则形状的聚类簇.在已有的谱聚类算法中,高斯核相似度是最常用的相似度度量准则.基于高斯核相似度度量及其扩展形式,提出了一种加权的自适应的相似度度量,此相似度可以用于谱聚类以及其他基于相似度矩阵的聚类算法.新的相似度度量不仅能够描述多密度聚类簇中数据点间的相似度,而且可以降低离群点(噪声点)与其他数据点间的相似度.实验结果显示新的相似度度量可以更好地描述不同类型的数据集中数据点间的相似度,进而得到更好的聚类结果.  相似文献   

9.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

10.
传统K-Modes算法的一个主要问题是属性选择问题。K-Modes算法在聚类过程中对每一个属性都同等看待,而在实际应用中,很多数据集仅有几个重要属性对聚类起作用。为了考虑不同属性对聚类的不同影响,将K-Modes聚类算法与属性权重的最优化结合起来,提出一种属性自动赋权的FW-K-Modes算法。该算法不仅可以提高传统K-Modes聚类算法的聚类精度,还能分析各维属性对聚类的贡献程度,实现关键属性的选择。对多个UCI数据集进行了实验,验证了该算法的优良特性。  相似文献   

11.
聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考虑进来,导致差异性度量不够准确。针对这个问题,提出基于结构相似性的k-modes算法。该算法不仅考虑属性值它们本身的异同,而且考虑了它们在其他属性下所处的结构。从集群识别和准确率两个方面进行仿真实验,表明基于结构相似性的k-modes算法在伸缩性和准确率方面更有效。  相似文献   

12.
模糊-Modes聚类算法针对分类属性的数据进行聚类,使用爬山法来寻找最优解,因此该算法对初始值较为敏感。为了克服该缺点,提出一种动态的模糊K—Modes初始化算法,该方法能够自动确定聚类数目,以及对应的聚类中心;而且能够应用于数值属性和分类属性相混合的数据集。该初始化算法可以有效地克服模糊K—Modes算法对初值的敏感性。实验的结果表明了该初始化算法的可行性和有效性。  相似文献   

13.
A fuzzy k-modes algorithm for clustering categorical data   总被引:12,自引:0,他引:12  
This correspondence describes extensions to the fuzzy k-means algorithm for clustering categorical data. By using a simple matching dissimilarity measure for categorical objects and modes instead of means for clusters, a new approach is developed, which allows the use of the k-means paradigm to efficiently cluster large categorical data sets. A fuzzy k-modes algorithm is presented and the effectiveness of the algorithm is demonstrated with experimental results  相似文献   

14.
为了满足数据分析中获取含有混合属性的数据集聚类的边界需求, 提出一种混合属性数据集的聚类边界检测算法(BERGE). 该算法利用模糊聚类隶属度定义边界因子以识别候选边界集, 然后运用证据积累的思想提取聚类的边界. 在综合数据集和真实数据集上的实验结果表明, BERGE 算法能有效地检测混合属性数据集、数值属性数据集以及分类属性数据集的聚类边界, 与现有同类算法相比具有更高的精度.  相似文献   

15.
On the impact of dissimilarity measure in k-modes clustering algorithm   总被引:3,自引:0,他引:3  
This correspondence describes extensions to the k-modes algorithm for clustering categorical data. By modifying a simple matching dissimilarity measure for categorical objects, a heuristic approach was developed in (Z. He, et al., 2005), (O. San, et al., 2004) which allows the use of the k-modes paradigm to obtain a cluster with strong intrasimilarity and to efficiently cluster large categorical data sets. The main aim of this paper is to rigorously derive the updating formula of the k-modes clustering algorithm with the new dissimilarity measure and the convergence of the algorithm under the optimization framework  相似文献   

16.
一种基于三角模糊数多指标信息的FCM 聚类算法   总被引:2,自引:2,他引:2  
樊治平  于春海  尤天慧 《控制与决策》2004,19(12):1407-1411
针对一类具有不确定性三角模糊数多指标信息的聚类分析问题,基于传统的数值信息FCM聚类算法,提出一种新的聚类分析算法.首先描述了具有三角模糊数多指标信息的聚类分析问题,提出并证明了基于三角模糊数多指标信息的关于最优划分和最优聚类中心确定的两个定理;然后根据这两个定理,进一步给出了基于三角模糊数信息的FCM聚类算法的迭代步骤;最后通过一个算例说明了该聚类算法的具体应用.  相似文献   

17.
针对传统协同过滤算法在用户推荐过程中数据稀疏性、可扩展性、用户兴趣迁移变化等问题,提出一种基于异构信息网络的模糊贴近度推荐算法。在k-means聚类算法基础上构建新的异构信息网络,利用关系抽取的方式构造用户属性权重矩阵;引入模糊贴近度综合分析元路径属性权重的影响,寻找近邻用户;采用Top-N算法排序进而完成推荐,并进行准确性验证。在Epinions数据集上的实验结果表明,在推荐质量和速度上,所提推荐算法较传统推荐算法更优。  相似文献   

18.
现有的社区发现算法通常基于结构特性进行社区划分,对节点属性特征欠缺考虑。为此,提出一种基于模糊等价关系的社区发现算法。用完全相异距离指数的概念将拓扑结构与属性特征相结合,以此作为隶属关系建立模糊等价关系矩阵,选择合适的聚类f阂值对网络进行社区划分。实验结果证明,与传统的GN算法相比,该算法发现社区的准确率较高,在相同社区内的节点连接紧密且具有同质性。  相似文献   

19.
The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. In this paper we present two algorithms which extend the k-means algorithm to categorical domains and domains with mixed numeric and categorical values. The k-modes algorithm uses a simple matching dissimilarity measure to deal with categorical objects, replaces the means of clusters with modes, and uses a frequency-based method to update modes in the clustering process to minimise the clustering cost function. With these extensions the k-modes algorithm enables the clustering of categorical data in a fashion similar to k-means. The k-prototypes algorithm, through the definition of a combined dissimilarity measure, further integrates the k-means and k-modes algorithms to allow for clustering objects described by mixed numeric and categorical attributes. We use the well known soybean disease and credit approval data sets to demonstrate the clustering performance of the two algorithms. Our experiments on two real world data sets with half a million objects each show that the two algorithms are efficient when clustering large data sets, which is critical to data mining applications.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号