首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
现有数据流聚类算法多数面向的是确定性数据,可是不确定数据的数据流聚类逐步被受到关注,因为经典的不确定数据聚类算法具有概率密度函数获取困难、实用性不强以及计算复杂等缺点,提出一种基于区间数的不确定数据流聚类算法UIDStream.算法用区间数来表示属性不确定性数据和基于区间数的距离计算方法,定义了不确定性数据之间的相似度,并利用传统k近邻聚类的思想,提出基于区间数的2k近邻微簇和最优2k近邻微簇的概念,通过最优2k近邻微簇的融合,实现不确定数据流的聚类.实验结果表明:改进后的算法具有良好的聚类效果,提高了不确定数据流聚类的聚类质量和速率.  相似文献   

2.
针对K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢的问题,本文提出了改进的K-means算法,首先用模糊聚类的思想对数据集进行模糊分类,其次采用动态计算聚类中心的方式对数据集进行二次分类,最后将算法在MapReduce模型上进行了实现.实验结果表明,改进后的算法不仅提高了加速比,而且算法的收敛速度更快.  相似文献   

3.
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.  相似文献   

4.
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。  相似文献   

5.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(5):16-23, 74
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数, 然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集, 最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。    相似文献   

6.
通常大规模复杂网络中社团数量是未知的,针对K-means谱聚类社团发现算法无法自动确定社团数量和聚类精度不高的缺点,提出了基于本征间隙和模糊c均值算法的自动谱聚类算法发现算法(FCMASC).该算法利用特征值的最大本征间隙来确定社团划分数量k,以特征向量矩阵线性相关性来确定FCM算法的初始聚类中心,运用FCM算法来对特征矩阵向量矩阵进行聚类.实验结果显示FCMASC算法能够有效提高聚类精度.  相似文献   

7.
基于人工免疫核聚类的支持向量数据描述方法   总被引:1,自引:0,他引:1  
为使支持向量数据描述(SVDD)能应用于无监督多分类情况,提出了一种基于人工免疫核聚类的支持向量数据描述(AIKCSVDD)方法。AIKCSVDD将人工免疫核聚类产生的记忆抗体作为目标数据点,使用SVDD方法进行多类学习。在AIKCSVDD中,一方面实现了用核聚类方法解决各类数据边界不清晰的长处与免疫网络聚类方法全局收敛、不需要先验知识的优点的有机结合;另一方面,由于用记忆抗体代替原始数据进行学习,从而更好展现了原始数据的全局分布特征。与基于K-means聚类multi-SVDD方法相比,AIKCSVDD不需要事先指定分类数;在人工数据集和UCI数据集上的实验表明,在为multi-SVDD指定分类数的情况下,AIKCSVDD仍比multi-SVDD具有更好的分类性能。  相似文献   

8.
针对传统的绩效考核评价方法需要大量的人力和物力统一分配资源,且输入数据的存储方式也不统一,导致评价效率低和评价准确率低的问题,提出一种基于K-means聚类算法的绩效考核模糊综合评价系统设计方法,通过数据准备模块、绩效考核模糊评价模块、报表处理模块、系统维护模块构成绩效考核模糊综合评价系统的整体结构。采用层次分析法对绩效考核评价指标对应的权重进行计算,构建绩效考核模糊评价模型,采用K-means聚类算法对绩效考核模糊综合评价模型进行求解,实现绩效考核的评价,完成绩效考核模糊综合评价系统的设计。实验结果表明:本文方法的评价效率高、评价准确率高。  相似文献   

9.
地下水开采可靠性的随机模拟与三角模糊数耦合模型   总被引:1,自引:0,他引:1  
在地下水允许开采量的计算过程中,存在着一些不确定性的因素,直接影响着计算结果的精度.本文探讨了将三角模糊数理论用于描述和处理影响地下水开采量的各参数随机性、模糊性,以及资料信息的不完整、不精确性等不确定性特征的具体实现途径.采用Monte Carlo方法模拟三角模糊数,把三角模糊数及其函数之间的运算转化为普通实数之间的运算,建立了水环境风险评价的随机模拟与三角模糊数耦合模型(SS-TFN).经风险分析所得结果较传统的水文地质学方法计算的结果, 更符合实际情况. 为在今后的地下水资源评价工作中,更加合理地、可靠地确定水源地的允许开采量提供了一种切实可行的方法, 使得与地下水开采有关决策的失误减小到最低程度.  相似文献   

10.
针对密度峰值聚类算法在处理分布不均匀数据集时聚类性能不佳且不能自动确定聚类中心的问题,提出基于共享邻域的密度峰值聚类算法(DPC-SN)。首先,考虑数据点的局部邻域信息和数据点间的相关性,根据共享邻域重新定义局部密度;其次,给出了新的决策阈值作为区分聚类中心和非聚类中心的临界值,自动获取聚类中心;最后,在不同分布特征的合成数据集和UCI数据集进行实验验证。结果表明,该算法聚类精度和总体性能优于基于K近邻的密度峰值聚类(DPC-KNN)、原始密度峰值聚类(DPC)、K均值聚类(K-means)和基于密度的聚类(DBSCAN)4种算法。  相似文献   

11.
电信业务每天都产生大量数据,如何从这些数据中提取有用的信息是当今数据挖掘的难题之一。针对实际应用中存在聚类簇数难以确定、单趟聚类算法有时不能收敛到用户指定的簇数等问题,提出了可调多趟聚类挖掘方法。第1趟通过引入一个较大的K值,采用K-means聚类算法,获得K个簇,为第2趟聚类的簇数及簇中心初始值选择提供参考。经电信现网业务数据实验,本文的方法既改善了原聚类方法的局部收敛性,又能较好地适应用户的不同数据分析需求,该方法可用于不确定簇数的大数据分析中。  相似文献   

12.
针对模糊C-均值聚类算法对聚类数预先不可知和谱系聚类所具有的缺陷,提出了混合模糊谱系聚类算法,该算法结合模糊聚类和谱系聚类,自动确定聚类数目,并可以有效的对数据进行聚类.实验表明,该算法具有良好的有效性和可行性.  相似文献   

13.
传统建模方法对于建立精确的存在多变量、强耦合、大时滞以及不确定性的非线性系统模型无能为力,从而难于精确表达复杂系统及实施整体优化控制.针对传统模糊C-均值聚类算法对初始值敏感及无法确定最优规则数的缺陷,提出了一种基于改进聚类算法的模糊辨识方法.它通过减法聚类和有效性函数确定初始聚类中心,然后采用一种全局模糊C-均值聚类算法寻找出最终聚类中心,并利用最近临域法确定合适的区域半径,最后通过递推最小二乘法建立系统的T-S模糊模型,对电阻炉温度系统进行仿真,说明本文所述方法的有效性.  相似文献   

14.
介绍K-means、DBSCAN、EM、Farthest First等4种常用的聚类算法,并在WEKA中使用这些算法对Iris数据集进行了聚类实验。实验结果表明,与DBSCAN、EM、Farthest First等聚类算法相比,K-means算法在误判率、运行时间、生成簇数、迭代次数方面与人工判断的吻合度最高。  相似文献   

15.
针对典型模糊聚类算法难以准确获取最佳聚类数的问题,提出了一种基于改进划分系数的模糊聚类有效性函数.在划分系数方法基础上,将类与类之间的分离性和类内的紧致性相结合,引入指数函数有效抑制噪声和孤立点数据对聚类有效性的影响.仿真实验将所提及的聚类有效性函数应用于模糊C均值聚类中,分别对两组自定义数据集和IRIS数据集进行了有效性验证,实验结果表明,本文提出的模糊聚类有效性函数能够准确划分最佳聚类数.  相似文献   

16.
通过分析传统K-means算法难以确定聚类中心数目的问题,提出了一种改进的K-means聚类算法(CS-kmeans).该算法分析当聚类效果较好时最大类内距离与最小类间距离之间的关系,使用类内距离小于最小类间距离以及类间距离大于最大类内距离实现对类别数的自动分割与合并,从而确定适当的聚类数目.实验结果表示,文中改进后的算法相比传统K-means算法和其他改进算法,对于确定聚类中心数目、提高聚类质量是更为有效的.  相似文献   

17.
一种基于改进PSO和FCM的图像分割算法   总被引:1,自引:0,他引:1  
在模糊C-均值聚类算法的基础上,提出了基于改进粒子群和模糊C-均值聚类的混合图像分割算法.该算法利用改进粒子群算法优化模糊C-均值的目标函数,同时引入聚类有效性指标,通过迭代更新搜索到合理的分割类别数和聚类中心实现自动确定图像分割最佳类别数,并根据最佳类别数确定最优聚类中心的选取,最终实现图像的自适应分割.实验结果表明...  相似文献   

18.
为解决属性值和属性权重都是三角模糊数时的多属性决策问题,采用等价转换的思路将属性值和属性权重的三角模糊数转换成同异型二元联系数,进而将三角模糊数的多属性决策转换成二元联系数的多属性决策.基于对二元联系数的有效信息集成,构建了一种新型的联系数广义有序加权平均(CNGOWA)算子,并提出了一种基于CNGOWA算子的三角模糊数多属性决策方法.实例分析表明,基于CNGOWA算子的三角模糊数多属性决策方法合理、稳定,可应用于三角模糊数型的模糊数据的决策分析和应用.  相似文献   

19.
针对传统的基于奇异值分解的不相关源数估计方法中,由于数据获取误差和谱估计误差及其不确定性所导致的问题,提出一种基于奇异值分解的聚类源数估计新方法.该方法借鉴聚类分析思想,克服了原方法中阈值选择的困难,并可同时优化各奇异值聚类的类内及类间分散度.实验结果证明了该方法可以自动实现奇异值量值的正确划分,从而非监督式地估计一个复杂机械系统中的不相关源数.  相似文献   

20.
针对标准遗传算法用于K-means优化聚类存在的问题,提出了一种基于组合优化方法的K-means聚类算法.实验结果表明:基于组合优化方法的K-means优化聚类算法效率较高,结果较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号