首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对流量分类中样本标注瓶颈和类不均衡问题,提出一种基于K均值和k近邻的半监督流量分类算法。采用K均值聚类算法将混有少量标记样本和大量未标记样本的数据聚成若干个簇,然后采用k近邻算法利用簇中标记样本对未标记样本进行分类。在分类过程中根据簇中标记样本分布调整参与分类的最近邻居数,从而克服了类不均衡对识别小类流的不利影响。理论分析和实验结果都表明,算法在面对非均衡协议流时提高了小类流的识别率。  相似文献   

2.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷, 提出基于进化思想的聚类算法及其类簇融合算法, 该算法将K均值聚类算法嵌入进化聚类算法框架中, 通过调整距离倍参, 将数据逐渐划分, 在此过程中自动确定类簇数目, 提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法, 将相似度大的类簇进行融合, 使得k值逐渐趋向真实值. 实验表明, 该方法具有良好的实用性.  相似文献   

3.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

4.
分析了数据流的特点,针对数据流聚类算法CluStream对数据流中非球形聚类效果不好的情况,提出了基于数据流的不规则网格增量聚类算法IIGStream.IIGStream算法具备了传统网格聚类算法处理速度快的优点.同时能够动态增量地调整网格结构.对新到来的数据点,通过判断网格是否相连,保证了对于不同形状聚类的聚类效果.IIGStream在聚类时无需预先指定聚类数目.且对孤立点不敏感.在真实数据集与仿真数据集上的实验结果表明,IIGStream算法具有良好的适用性和有效性,在聚类精度以及速度上均优于CluStream算法.  相似文献   

5.
一种基于相似度概率的不确定分类数据聚类算法   总被引:1,自引:1,他引:0  
针对不确定分类数据,基于Squeezer算法提出一种有效的不确定数据聚类算法:USqueezer算法。该算法先计算一个不确定分类数据与每个簇的相似度概率和,选取最大的相似度和给定的阈值相比较,若大于阈值,将不确定数据划分到该簇中,否则创建一个新簇。实验表明,USqueezer算法能够有效地进行不确定分类数据的聚类,并且占用较少的运行内存空间和运行时间。  相似文献   

6.
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。   相似文献   

7.
随着对实验精确度要求的不断提高,聚类分析中的不确定性数据聚类也越来越受到关注.然而经典的不确定数据聚类通常假设其概率密度函数(PDF)等信息是已知的,而现实过程中,这些指标并没有那么轻易就能获取.考虑到这些情况,可以利用三角模糊数来恰当有效地表示多维不确定性数据,并采用基于三角模糊数的低计算复杂度的距离计算方法,结合K-means基础聚类方法形成一种被命名为UTDK-means(Uncertain triangular fuzzy number data K-means)的聚类方法,而它是基于三角模糊数的.实验结果表明:基于三角模糊数的不确定数据聚类是可行的,具有一定的研究价值.  相似文献   

8.
谱聚类算法是一种可有效学习数据流形分布和非凸状分布的聚类算法,但其过程涉及构建相似图、特征分解等高计算复杂度步骤,难以直接用于大规模聚类.提出一种基于二部图的快速聚类算法(fast clustering based on bipartite graph,FCBG),通过对数据采样降低原有数据结构规模,然后基于二部图学习采样数据和原有数据关系.通过对二部图对应的拉普拉斯矩阵施加秩约束,FCBG算法可在优化二部图的边的权重的同时,保持二部图的类簇结构,最终直接给出聚类结果,不依赖构图时每条边的初始权重分配.算法计算复杂度与数据大小呈线性关系.实验表明,FCBG算法可有效学习二部图的权重,并在较少的时间消耗下获得高质量的聚类结果.  相似文献   

9.
电信业务每天都产生大量数据,如何从这些数据中提取有用的信息是当今数据挖掘的难题之一。针对实际应用中存在聚类簇数难以确定、单趟聚类算法有时不能收敛到用户指定的簇数等问题,提出了可调多趟聚类挖掘方法。第1趟通过引入一个较大的K值,采用K-means聚类算法,获得K个簇,为第2趟聚类的簇数及簇中心初始值选择提供参考。经电信现网业务数据实验,本文的方法既改善了原聚类方法的局部收敛性,又能较好地适应用户的不同数据分析需求,该方法可用于不确定簇数的大数据分析中。  相似文献   

10.
针对多维数据属性对聚类分析结果有不同重要程度影响的问题,提出一种基于自适应属性加权的近邻传播聚类算法。该方法通过考虑多维数据属性权值的重要度,在近邻传播聚类过程中引入属性加权相似性矩阵计算,并根据当前数据聚类划分的结果来分析目标评价函数,计算各个属性对当前聚类的贡献程度。随后根据贡献程度的计算结果自适应地更新属性权值,并通过属性加权相似性矩阵来重新计算近邻传播算法中的两种竞争信息,进而提高聚类结果的质量。数值实验结果表明,新方法能够有效实现属性权值的自适应调整,提高近邻传播算法的聚类效果,与其他传统聚类算法相比新方法具有更好的聚类质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号