首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

2.
聚类分析是数据挖掘最常见的技术之一,数据的规模、维数和稀疏性都是制约聚类分析的不同方面.本文提出一种有效的高属性维稀疏数据聚类方法.给出稀疏相似度、等价关系的相似度、广义的等价关系的定义.基于对象间的稀疏相似度和等价关系原理形成初始等价类,通过等价关系的相似度修正初始等价关系,使得最终聚类结果更合理.该算法聚类过程不依赖于输入样本的排列顺序,高维稀疏数据的有效压缩提高算法在维数较高时的执行效率,适合于高维稀疏数据的聚类分析.  相似文献   

3.
大数据聚类算法综述   总被引:1,自引:0,他引:1  
海沫 《计算机科学》2016,43(Z6):380-383
随着数据量的迅速增加,如何对大规模数据进行有效的聚类成为挑战性的研究课题。面向大数据的聚类算法对传统金融行业的股票投资分析、互联网金融行业中的客户细分等金融应用领域具有重要价值。对已有的大数据聚类算法进行了详细划分,并比较了每种聚类算法的优缺点,进一步总结了已有研究存在的问题,最后对未来的研究方向进行了展望。  相似文献   

4.
针对传统面向分类属性数据的聚类算法大多是对单一指标优化而存在的局限性,将类内和类间信息同时引入到优化过程中,结合多目标优化算法与模糊中心点聚类,提出一种新颖的多目标模糊聚类算法.与传统的基于遗传算法的混合聚类方法不同的是,采用模糊隶属度对染色体进行编码,同时优化2个相对的聚类目标函数获得一组最优解集,并且采用了一种提前终止准则判断算法是否达到稳定状态并停止操作,以减少不必要的计算开销.为了进一步提高算法的效率,通过采样子集计算出相应的模糊中心点作为类的表达,然后以这些模糊中心点计算出全体样本的隶属度矩阵即可获得最终的聚类结果.对10种数据集的实验结果表明:所提方法在聚类精度和稳定性方面优于当前最新的多目标聚类算法,且计算效率也获得较大的提升.  相似文献   

5.
为了提高大数据统计及分析的效率,有必要对数据集合进行聚类,以减少数据集合维度,并去掉相似数据冗余。本文采用熵加权和稀疏分数特征选择相结合,一方面对异构数据进行局部结构划分,降低数据维度,对局部结构的特征重要性标记并排序,提高聚类精度,另一方面,提高聚类稳定性。实验证明,该方法对不同种类的大数据聚类具有较强适用性。  相似文献   

6.
为了克服经典模糊K-Means算法在面对大数据聚类时所出现的聚类效率低和运行时间长的问题,提出了一种基于层次式MPI并行编程模型和改进模糊K-Means算法的大数据聚类方法;首先,引入多层MasterNode节点设计了一种改进的层次式MPI并行编程模型,然后,引入类间距离和类内距离得到一种最优聚类数的计算方式,并设计了一种改进的模糊K-均值聚类算法;采用SlaveNode节点并行运行改进的模糊K均值算法进行数据子集聚类,然后再通过各层MasterNode节点进行汇总和进一步处理;仿真实验表明文中方法能较为精确地实现大数据聚类,准确精确度较经典模糊K均值算法平均约高5.6%,弥补了经典模糊K-Means方法在处理大数据时的正确率低和低效的缺点,具有很强的优越性。  相似文献   

7.
结构化模糊K-prototypes聚类算法   总被引:2,自引:0,他引:2  
尽管综合了K-means和K-modes的K-prototypes算法已能有效地处理符号数据,但用聚类中的符号模(modes)来表示聚类中的数据均值将引起大量的信息丢失。为此,本文提出了一种适合于混合类型数据的结构化模糊K-prototypes算法(SFKP),在不增加时空开销的情况下提高聚类能力。实际数据集上的实验结果显示,SFKP算法能够进行更加有效的聚类。  相似文献   

8.
针对当前关联性数据在聚类后聚类结果与对应聚类簇之间距离过大,聚类簇本身聚类纯度较低等影响聚类质量的问题,开展相关研究。通过构建关联性大数据实时流式可控聚类框架、可控粗聚类、可控细聚类,提出一种全新的聚类算法。实验结果表明,新的聚类算法聚类结果与对应聚类簇的距离平方和数值更小,聚类簇本身聚类纯度更高,进一步提升聚类结果的质量,实现对关联性大数据的高效利用。  相似文献   

9.
在大数据时代,针对CLUBS算法较高的计算复杂度导致训练效率低下的问题,提出一种面向大规模数据的并行聚类算法CLUBS‖,通过将CLUBS算法的思想融入MapReduce并行计算框架,实现数据的并行处理,提高算法的计算效率,从理论上对几个关键计算的并行化进行较为深入的分析,基于Ad-hoc消息传递对该算法进行实现.实验...  相似文献   

10.
11.
将高维的大数据集随机分成若干个子集,对每个子集聚类采用一种基于遗传算法的高维数据模糊聚类方法。该方法引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本随机初始化到二维平面,利用遗传算法迭代优化二维样本的坐标值,实现二维样本之间的欧氏距离向样本间的模糊非相似度的趋近。将得到的最优的二维样本用模糊C-均值聚类(FCM)算法聚类,克服了聚类有效性对高维样本空间分布的依赖。实验仿真表明,该算法有较好的聚类效果,且极大地提高了聚类的速度。  相似文献   

12.
一种基于网格方法的高维数据流子空间聚类算法   总被引:4,自引:0,他引:4  
基于对网格聚类方法的分析,结合由底向上的网格方法和自顶向下的网格方法,设计了一个能在线处理高维数据流的子空间聚类算法。通过利用由底向上网格方法对数据的压缩能力和自顶向下网格方法处理高维数据的能力,算法能基于对数据流的一次扫描,快速识别数据中位于不同子空间内的簇。理论分析以及在多个数据集上的实验表明算法具有较高的计算精度与计算效率。  相似文献   

13.
谢坤武  胡俊鹏 《计算机工程》2008,34(10):101-102
提出一种高维数据集合聚类算法(CAHD)。采用双向搜索策略在指定的n维空间或其子空间上发现数据点密集的单元区域,采用逐位相与的方法为这些密集单元区域聚类。双向搜索策略能够有效地减少搜索空间,提高算法效率,聚类密集单元区域只用到逐位与和位移2种机器指令。实验结果表明,在发现的类数量相同的情况下,CAHD算法的运行时间比其他算法减少30%。  相似文献   

14.
一种大数据环境下的新聚类算法   总被引:2,自引:0,他引:2  
李斌  王劲松  黄玮 《计算机科学》2015,42(12):247-250
提出了一种新的聚类算法NGKCA,该算法克服了经典聚类算法检测率和稳定性的不足,适用于解决大数据环境下的聚类问题。NGKCA聚类算法包括4个阶段:首先利用谱聚类NJW算法对大数据集进行列降维和数据归一化处理,其次引入对初始值不敏感的粒子群算法对数据集进行行降维从而选出临时的聚类中心集,接着通过全局Kmeans算法对最佳聚类中心集进行聚类以获取聚类中心点,最后使用粒子群算法对聚类中心点进行调整进而获取最终的聚类划分。在一些著名的机器学习数据集和国际标准的网络安全数据集KDDCUP99上进行实验,结果表明:提出的算法比谱聚类、Kmeans、粒子群、全局Kmeans等常见算法具有更好的稳定性和更高的检测率,与全局Kmeans算法相比具有更优的时间复杂度。  相似文献   

15.
面向位置大数据的快速密度聚类算法   总被引:1,自引:0,他引:1  
本文面向位置大数据聚类,提出了一种简单但高效的快速密度聚类算法CBSCAN,以快速发现位置大数据中任意形状的聚类簇模式和噪声.首先,定义了Cell网格概念,并提出了基于Cell的距离分析理论,利用该距离分析,无需距离计算,可快速确定高密度区域的核心点和密度相连关系;其次,给出了网格簇定义,将基于位置点的密度簇映射成基于网格的密度簇,利用排他网格与相邻网格的密度关系,可快速确定网格簇的包含网格;第三,利用基于Cell的距离分析理论和网格簇概念,实现了一个快速密度聚类算法,将DBSCAN基于数据点的密度扩展聚类转换成基于Cell的密度扩展聚类,大大减少高密度区域的距离计算,利用位置数据的内在特性提高了聚类效率;最后,在基准测试数据上验证了所提算法的聚类效果,在位置大数据上的实验结果统计显示,相比DBSCAN、PR-Tree索引和Grid索引优化的DBSCAN,CBSCAN分别平均提升了525倍、30倍和11倍效率.  相似文献   

16.
给出了兴趣子空间的定义,采用基于Chernoff-Hoeffding边界,带回溯的深度优先搜索算法来挖掘最大兴趣子空间,并运用高维真实数据和合成数据检验算法的有效性。高维数据的挖掘面临着数据分布的稀疏性和特征空间的相交性所带来的挑战。  相似文献   

17.
提取区间型数据的特征值,给出适用于区间型数据模糊聚类的FCM算法族(IFCM)。该算法适用于不同特征样本数据的模糊聚类运算,并可对聚类结果进行优化。聚类效果的仿真比较表明,IFCM聚类的平均失真度比基于欧氏距离的FCM聚类算法低6.81%。由于距离定义的合理性,IFCM可以根据区间型数据的不同特点调整特征值的聚类权重,并推广至多维类型数据的模糊聚类。  相似文献   

18.
传统方法在对高维稀疏数据进行检测的过程中,受到高维特征扰动的影响,数据误差较大,因此提出一种基于深度学习的高维稀疏数据组合推荐算法。采用相空间重构方法进行高维稀疏数据的特征重构,根据重构结果结合非线性统计序列分析方法进行高维稀疏数据的回归分析和点云结构重组,在此基础上提取高维稀疏数据的组合特征量;依据特征量提取结果采用特征提取技术抽取高维稀疏数据的平均互信息特征量,并结合关联规则挖掘方法进行高维稀疏数据的主成分分析,挖掘高维稀疏数据的相似度属性类别成分,最终采用深度学习方法进行高维稀疏数据组合推荐过程中的自适应寻优,实现高维稀疏数据的组合推荐。仿真结果表明,采用该算法进行高维稀疏数据推荐的属性归类辨识性较好,特征分辨能力较强,提高了数据的检测和识别能力。  相似文献   

19.
一种大规模的递增聚类算法及其在文档聚类中的应用   总被引:2,自引:0,他引:2  
聚类是将数据进行划分,并从中发现有用信息的一种有效手段,它在很多领域都有着非常重要的应用。K均值方法是聚类方法中较常用的一种,但对于大规模的数据,而且有计算资源和时间约束的情况下,K均值方法已不能满足要求。该文提出的CFK-means方法是一种适合于大规模数据的、快速高效的递增聚类方法,它采用了聚类特性(Clus-teringFeatures,CF)结构来表示聚类,能更有效地保留和利用聚类信息。它只需扫描数据一次即可得到聚类划分,所需的计算时间和文件交换时间数倍少于K均值方法,而且聚类的准确度和K均值方法相当。通过对仿真数据和实际文本集数据进行的对比实验证明了CFK-means方法的有效性。  相似文献   

20.
在模糊聚类算法中,模糊系数被用来控制簇可能重叠的程度,其负面影响是所有的数据对象会影响所有的簇。为解决该问题,Klawonn和Hppner使用模糊函数替换模糊系数(KH算法),但该方法是针对数值属性数据而设计的。然而,在许多真实的应用中,数据对象通常同时由数值属性和分类属性描述。面向混合属性数据,文中提出了一种新的基于模糊质心的模糊加权聚类算法。首先结合模糊质心和均值来表示混合属性条件下的簇中心,然后使用能够评估不同属性在聚类过程中作用的度量来评估数据对象和簇中心之间的相异度,最后给出算法框架。在3个混合属性数据集上对新算法进行了一系列的测试,实验结果表明新算法的性能优于传统算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号