首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

2.
本文提出一种基于扩散信息素模型的全局收敛蚁群聚类算法,设计新的信息素更新机制与概率转移机制,适用于复杂的数据集分析。实验结果表明,新算法在聚类效果上比基本的蚁群聚类算法有较明显的改善。最后将新算法应用于电信运营商的客户数据分析中,用于建立客户细分聚类模型,对复杂客户数据集进行分类,取得了较理想的效果。  相似文献   

3.
属性图各节点附有的节点属性标签,为节点提供了更加丰富的信息,在数据挖掘应用,特别是数据聚类问题中如何有效利用这些丰富的信息,已经成为开展此类研究的研究目的.不同于传统图聚类,属性图上的聚类要同时考虑图的结构信息和节点的属性信息,因此如何平衡两者之间的关系,这是属性图聚类主要关注所在.目前已提出的属性图聚类算法,部分算法的效率很高,然而聚类质量较差,同时一些算法可以得到较好的聚类结构,然而算法消耗大量的系统资源,效率也较低.这些算法均没有考虑簇之间存在重叠的情况,这导致无法得到更高精度的聚类结构.因而提出一种属性图上的重叠聚类挖掘算法,实验表明,提出的算法可以得到更高的聚类精度,特别是可以提升聚类内部节点的属性相似度.  相似文献   

4.
郏宣耀 《计算机应用》2005,25(Z1):176-177
针对高维数据相似度难定义的问题,提出了一种基于相似性二次度量的高维聚类算法.该算法首先由属性分布相似度和空间距离计算数据对象间实距离矩阵,得到各对象的最近邻表,根据该表内元素的交叉情况计算出数据间的相似性矩阵,最后根据该相似矩阵进行数据聚类.实验结果显示该算法能够获得优秀的聚类结果.  相似文献   

5.
针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感、不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据。首先,提出了一种新的相似性度量方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵与新的基于信息熵的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了数值属性与分类属性数据之间的转换和参数调整;然后,把新的相似度矩阵运用到谱聚类算法中,以便于处理任意形状的数据,最终得出聚类结果。通过在UCI的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。  相似文献   

6.
针对因使用基于距离的相似性度量,传统聚类内部指标随着数据维数的增加而性能下降的问题,提出了一种基于共享近邻相似度的聚类内部指标.首先,利用共享近邻相似度和k最近邻(kNN)方法,估计数据点的密度,构建融合密度的共享近邻相似度图.然后,根据融合密度的共享近邻相似度图,利用最大流算法,计算出类内相似度和类间分离度,并结合两者计算出聚类内部指标.通过对人工数据集和真实数据集的测试表明,与9个基于距离的传统聚类内部指标相比,该指标能更准确评估数据集的最佳划分和预测数据集的最佳类数.因此,该指标处理复杂类结构和高维数据的能力优于所对比的其他聚类内部指标.  相似文献   

7.
基于谱聚类的聚类集成算法   总被引:6,自引:7,他引:6  
周林  平西建  徐森  张涛 《自动化学报》2012,38(8):1335-1342
谱聚类是近年来出现的一类性能优越的聚类算法,能对任意形状的数据进行聚类, 但算法对尺度参数比较敏感,利用聚类集成良好的鲁棒性和泛化能力,本文提出了基于谱聚类的聚类集成算法.该算法首先利用谱聚类算法的内在特性构造多样性的聚类成员; 然后,采用连接三元组算法计算相似度矩阵,扩充了数据点之间的相似性信息;最后,对相似度矩阵使用谱聚类算法得到最终的集成结果. 为了使算法能扩展到大规模应用,利用Nystrm采样算法只计算随机采样数据点之间以及随机采样数据点与剩余数据点之间的相似度矩阵,从而有效降低了算法的计算复杂度. 本文算法既利用了谱聚类算法的优越性能,同时又避免了精确选择尺度参数的问题.实验结果表明:较之其他常见的聚类集成算法,本文算法更优越、更有效,能较好地解决数据聚类、图像分割等问题.  相似文献   

8.
研究准确细分电信客户,提高竞争力,采用随机选择初始值聚类中心和梯度下降寻优方式,易陷入局部最优,导致电信客户细分的准确率低.为了解决C值的不足来提高电信客户细分准确率,提了一种粒子群优化C均值的电信客户细分方法(PSO-FCM),PSO-FCM通过PSO来选择电信客户细分的初始聚类中心,减小客户细分结果对聚类中心依赖,然后采用C均值算法对电信客户进行细分.在VC十十语言环境下,PSO- FCM算法对电信客户消费数据进行仿真,实验结果表明,提高了电信客户细分准确率,更助于电信企业对不同客户群制定相应营销套餐,为电信企业带来更多的收益.  相似文献   

9.
由于当今的网络数据是海量的,因此科研人员对某些问题进行研究时需要将不同属性的数据从中提取出来,然而在提取这些数据之前需要将相同数据进行聚类。数据聚类的过程,也就是寻找数据最优属性的过程,然而人工蚁群就是一种寻找问题最优解的算法,因此在本文中再次将蚁群算法在聚类中进行应用。由本文提出的聚类算法可以分为两个部分,第一部分是:通过相似性算法来衡量数据之间的相似度,第二部分是:根据第一部分的计算结果,再采用蚁群算法为需要聚类的数据选择不同的聚类中心,从而对不同属性的数据进行聚类,经过以上两个过程的计算,可以实现对数据的聚类。在本文中进行数据聚类时采用的相似性度量来代替距离的计算,是本文创新点之一,采用蚁群算法在聚类过程中来选择聚类中心也是本文的创新所在。  相似文献   

10.
自组织映射聚类算法在电信客户细分中的应用①   总被引:2,自引:0,他引:2  
将自组织映射SOM(Self Organization Map)聚类算法应用于电信客户细分,并与采用K-means聚类算法得到的结果进行比较。实验表明,SOM可以有效的进行电信客户细分且聚类效果较优,但需付出训练时间的代价。同时对两种算法的复杂度、误差等进行了分析。  相似文献   

11.
As a novel clustering method, affinity propagation (AP) clustering can identify high-quality cluster centers by passing messages between data points. But its ultimate cluster number is affected by a user-defined parameter called self-confidence. When aiming at a given number of clusters due to prior knowledge, AP has to be launched many times until an appropriate setting of self-confidence is found. K-AP algorithm overcomes this disadvantage by introducing a constraint in the process of message passing to exploit the immediate results of K clusters. The key to K-AP clustering is constructing a suitable similarity matrix, which can truly reflect the intrinsic structure of the dataset. In this paper, a density-adaptive similarity measure is designed to describe the relations between data points more reasonably. Meanwhile, in order to solve the difficulties faced by K-AP algorithm in high-dimensional data sets, we use the dimension reduction method based on spectral graph theory to map the original data points to a low-dimensional eigenspace and propose a density-adaptive AP clustering algorithm based on spectral dimension reduction. Experiments show that the proposed algorithm can effectively deal with the clustering problem of datasets with complex structure and multiple scales, avoiding the singularity problem caused by the high-dimensional eigenvectors. Its clustering performance is better than AP clustering algorithm and K-AP algorithm.  相似文献   

12.
Most existing data mining algorithms apply data-driven data mining technologies. The major disadvantage of this method is that expert analysis is required before the derived information can be used. In this paper, we thus adopt a domain-driven data mining strategy and utilize association rules, clustering, and decision trees to analyze the data from fixed-line users for establishing a late payment prediction system, namely the Combined Mining-based Customer Payment Behavior Predication System (CM-CoP). The CM-CoP could indicate potential users who may not pay the fee on time. In the implementation of the proposed system, first association rules were used to analyze customer payment behavior and the results of analysis were used to generate derivative attributes. Next, the clustering algorithm was used for customer segmentation. The cluster of customers who paid their bills was found and was then deleted to reduce data imbalances. Finally, a decision tree was utilized to predict and analyze the rest of the data using the derivative attributes and the attributes provided by the telecom providers. In the evaluation results, the average accuracy of the CM-CoP model was 78.53% under an average recall of 88.13% and an average gain of 11.2% after a six-month validation. Since the prediction accuracy of the existing method used by telecom providers was 65.60%, the prediction accuracy of the proposed model was 13% greater. In other words, the results indicate that the CM-CoP model is effective, and is better than that of the existing approach used in the telecom providers.  相似文献   

13.
机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一致性的流形相似性,提高了同类数据间的紧致性和不同类数据间的分离性,促使潜在类中心点的密度值成为局部最大。在4个人工数据集和4个真实图像数据集上将AE-MDPC与经典的K-means,DBSCAN,DPC算法以及结合了PCA的DPC算法进行比较。实验结果表明,在外部评价指标聚类精度、内部评价指标调整互信息和调整兰德指数上,AE-MDPC的聚类性能优于对比算法,而且提供了更好的可视化性能。总之,基于特征表示学习且结合流形距离的AE-MDPC算法能有效地处理复杂流形数据和高维图像数据。  相似文献   

14.
林勤  薛云 《计算机应用》2014,34(6):1807-1811
针对传统客户价值细分方法在高价值客户细分时不够精细化的问题,引入了大均值子矩阵(LAS)双聚类算法。该方法在客户样本和消费属性两个维度上对消费记录进行双向聚类,可以挖掘出高消费、高价值的客户群体。以某电信公司的高价值客户细分为实例,通过定义一个价值尺度和构建一个PA指标,将所提算法与K均值(K-means)算法进行性能比较,实验结果表明,所提算法能挖掘出更多的高价值客户群体,且能够对客户属性进行更加精细的划分,因此它更适合应用于高价值客户市场的识别和细分。  相似文献   

15.
一种基于群体智能的客户行为分析算法   总被引:33,自引:0,他引:33  
提出了一种基于群体智能的客户行为分析算法.首先将客户的消费模式作为平面上的一个点随机分布于平面区域内;然后依据基于群体智能的聚类方法,选用由小到大的群体相似系数进行聚类分析;最后,在平面区域内采用递归算法收集聚类结果,获得不同消费特征的客户群体.文中还提出了算法的并行策略,提高了算法对大数据量的适应性.该文以电信移动客户话费数据作为实验数据,并将算法结果与其它经典聚类算法的结果进行比较分析.分析结果表明:这种基于群体智能的客户行为分析算法能够满足客户聚类和分类的要求,特别是在大客户分析及一对一营销中特别客户的分析方面该算法有直观、类别特征明显等特点.  相似文献   

16.
非负矩阵分解作为一种有效的数据表示方法被广泛应用于模式识别和机器学习领域。为了得到原始数据紧致有效的低维数据表示,无监督非负矩阵分解方法在特征降维的过程中通常需要同时发掘数据内部隐含的几何结构信息。通过合理建模数据样本间的相似性关系而构建的相似度图,通常被用来捕获数据样本的空间分布结构信息。子空间聚类可以有效发掘数据内部的子空间结构信息,其获得的自表达系数矩阵可用于构建相似度图。该文提出了一种非负子空间聚类算法来发掘数据的子空间结构信息,同时利用该信息指导非负矩阵分解,从而得到原始数据有效的非负低维表示。同时,该文还提出了一种有效的迭代求解方法来求解非负子空间聚类问题。在两个图像数据集上的聚类实验结果表明,利用数据的子空间结构信息可以有效改善非负矩阵分解的性能。  相似文献   

17.
聚类混合型数据,通常是依据样本属性类别的不同分别进行评价。但这种将样本属性划分到不同子空间中分别度量的方式,割裂了样本属性原有的统一性;导致对样本个体的相似性评价产生了非一致的度量偏差。针对这一问题,提出以二进制编码样本属性,再由海明差异对属性编码施行统一度量的新的聚类算法。新算法通过在统一的框架内对混合型数据实施相似性度量,避免了对样本属性的切割,在此基础上又根据不同属性的性质赋予其不同的权重,并以此评价样本个体之间的相似程度。实验结果表明,新算法能够有效地聚类混合型数据;与已有的其他聚类算法相比较,表现出更好的聚类准确率及稳定性。  相似文献   

18.
基于二部图的概念聚类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
传统概念聚类算法中簇的更新和存储不仅依赖于对象数目和属性数目,而且依赖于属性值的数目,这种局限性使其不适用于大型数据集。提出一种新的基于二部图的概念聚类算法(BGBCC),该算法通过获得二部图的近似极大ε二元组集,有效地进行数据与属性的关联聚类。实验表明,该算法能得到较好的聚类结果,且能在较短的时间内进行大型数据集的概念聚类。  相似文献   

19.
面对电信市场竞争的日益加剧和信息技术的迅猛发展,电信运营商必须建立以“客户为中心”的管理模式。将客户进行分类,针对不同的客户,研究出相应的营销策略。数据挖掘中的K—means聚类算法能对大型数据集进行高效分类。对K—means算法进行改进,使其能够应用于复杂的电信客户关系管理,实现更加准确和全面的客户分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号