共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。 相似文献
3.
YU Lin 《数字社区&智能家居》2008,(14)
电信用户的通话行为聚类分析是一个新的研究领域,属于数据挖掘范畴。为了对用户行为进行有针对性的分析挖掘,发现客户行为中隐藏的、有用的、未曾预料的知识,采用了模糊C均值(FCM)聚类算法,以模糊数学理论知识作为客户行为聚类分析的方法,为电信企业客户分析提供了量化依据,并采用Matlab为计算工具,给出了一个聚类分析实例,并初步建立了通话行为模型识别机制。实验证明,本文采用的模糊聚类方法得到了满意的分析结果。 相似文献
4.
一种新型的基于密度和栅格的聚类算法* 总被引:2,自引:1,他引:1
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。 相似文献
5.
基于层次划分的最佳聚类数确定方法 总被引:20,自引:0,他引:20
确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率. 相似文献
6.
讨论邮件社区的划分及邮件社区的性质;提出一种基于微-宏聚类的邮件社区划分算法,在宏聚类之后加入了调整划分策略,显著提高了划分质量.本算法根据邮箱通信行为特征定义邮箱问的联系紧密度,采用微聚类-宏聚类找到联系比较紧密的簇,然后通过对个别节点做合理的簇间调整来找到真正的结果簇.实验表明,这种社区划分算法能够发现高质量的社区. 相似文献
7.
8.
9.
分析网络群落划分的GN聚类和模式识别中AP聚类两种算法的设计思想和特点;以图书借阅记录为例构建了顾客聚类的数据集,进行了两种算法的聚类比较。研究表明,两种算法从不同角度揭示了顾客群体的结构特征,GN聚类结果与顾客的宏观特征分类相接近,而AP算法结果反映出顾客需求的分布特征。探讨了算法设计原则对实验结果产生的影响。这些工作可为聚类算法的设计改进和顾客行为的数据挖掘等研究提供一定的参考。 相似文献
10.
传统的聚类算法如Kmeans等,往往需要事先定义聚类数目。在实际应用中,多基于经验知识来确定类别个数,而且一般需要多次尝试,这种方法具有很大的盲目性。本文提出一种基于SOM的聚类算法,利用SOM的可视化功能和人眼在低维情况下对模式的快速识别能力来避免传统聚类算法确定聚类数目的盲目性。将提出的方法应用于某电信公司客户分群的实际问题当中,来刻画客户组的个性行为特征,以便销售人员制定针对性的营销策略,具有重要的实际意义。 相似文献
11.
模糊HopField神经网络聚类及在DRP中的应用 总被引:1,自引:0,他引:1
探讨了模糊Hopfield神经网络的聚类功能及其阈值的灵敏度和上下确界。提出了一种基于该聚类理论的企业销售客户资信聚类模型,通过二分法实现自动搜索各个阈值确界的逼近值,并应用于一大型粮食业集团的DRP系统中的资信评估,采用ASP.NET+MSSQLServer2000的B/S构架实现,为该集团的销售客户资信等级分类提供了科学方法,其聚类结果的合理性得到了集团应用的验证。 相似文献
12.
Wang Xing Zheng Cheng-zeng 《数字社区&智能家居》2008,(Z1)
本文首先对聚类算法进行了分析,然后以中小型商业批发企业为例,设计了一种反映客户价值与客户关系质量的客户细分模型,应用K-Means聚类方法进行了实际的挖掘。探讨在中小型企业不能提供完备数据的情况下,只要设计出合理的细分模型并选择合适的算法仍然可以实现有效的客户细分。 相似文献
13.
14.
15.
16.
提出一种分层聚类算法,该算法可识别任意形状、大小的类,在某电信企业的客户分析中取得了较好的结果。算法首先从不同的角度对电信客户进行聚类或分类,然后以这些类为基础,实行自底向上的层次聚类得到最终的聚类结果。算法执行效率高,适合大规模数据的聚类问题。 相似文献
17.
针对利用金融机构进行洗钱的犯罪行为,为了提高可疑行为客户的识别效率,智能信息技术与KYC标准的结合为反洗钱工作提供了新的思路。论文将模式识别技术应用于反洗钱领域,提出基于聚类方法的客户交易行为模式识别,通过判断客户交易行为模式,识别具有异常交易行为的可疑客户。实验结果验证了该方法的可行性与有效性。 相似文献
18.
19.
《计算机应用与软件》2017,(9)
聚类集成是将一个数据集的多个划分(基聚类)合成一个新的聚类,该聚类最大程度地代表了所有输入基聚类对数据集的聚类信息。显而易见,初始基聚类的质量对于最终的集成划分至关重要。传统的聚类集成中的基聚类器使用最多的是K-means,因为K-means不仅实现简单,计算复杂度不高,而且其聚类机制符合机器学习关于局部数据的类别条件概率为常数的假设。但由于K-means通常直接使用高斯距离作为距离测度,其只能发现球形簇的类;而对于具有结构复杂、尤其是基于连接性且非球形分布的类结构的数据集,不能生成高质量(即同质性高)的基聚类。为此提出一个基聚类的优化方法,即:判定K-means所生成类的同质性,对同质性较差的类进行再次划分,以提高基聚类的同质性,从而提高整个聚类集成的质量。在8个数据集上的实验数据表明所提出的方法是有效的。 相似文献
20.
针对企业CRM中日常收集的各种销售数据,设计一种反映客户价值与客户关系质量的客户细分模型.运用概念格获取最大频繁项目集,并以此作为初始聚类,采用适合的相似性测量方法,求得聚类结果.目的在于探讨基于概念格技术的客户聚类方法的可行性和有效性.研究表明,该方法所生成的聚类比其他传统方法更优化,而且效率较高. 相似文献