首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 42 毫秒
1.
对k-means聚类算法的改进   总被引:17,自引:6,他引:17  
袁方  孟增辉  于戈 《计算机工程与应用》2004,40(36):177-178,232
提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。  相似文献   

2.
针对传统的k-means算法处理离散型数据的不足以及选取初始聚类中心的随机性等缺点,提出了一种基于改进的粒子群优化k-means算法,根据文中提供的优化算法寻找初始聚类中心后,在阀值范围内进行数据样本间的迭代更新,直至聚类中心稳定。经过实验结果验证分析表明,经过改进的粒子群优化k-means算法与传统的k-means算法相比,更具有良好的聚类收敛效果,聚类效果也相对稳定。  相似文献   

3.
《软件工程师》2019,(5):32-34
针对传统k-means算法中初始聚类中心随机确定的问题,提出k-means改进算法。首先,定义变量权值,权值的大小等于样本密度乘以簇间距离除以簇内样本平均距离,通过最大权值来确定聚类中心,克服了随机确定聚类中心的不稳定性。然后在Hadoop平台上用Map-Reduce框架下实现算法的并行化。最后以南通公交IC刷卡记录为例,通过改进的k-means聚类算法进行IC卡刷卡记录的分析。实验表明,在Hadoop平台下改进k-means算法运行稳定、可靠,具有很好的聚类效果。  相似文献   

4.
针对海量文本聚类中面临的海量性、高维性以及聚类结果的可描述性难题,提出了一个并行的文本聚类混合算法parSHDC.该算法采用纵向的方式在多个处理机间划分数据集,根据频繁词集生成粗聚类,然后利用并行k-means算法精化粗聚类从而得到最终结果,并由k个频繁词集对聚簇提供描述.与另外两个并行聚类算法通过实验进行比较,parSHDC具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚类.  相似文献   

5.
该文详细阐述了数据挖掘领域的常用聚类算法及改进算法,并比较分析了其优缺点,提出了数据挖掘对聚类的典型要求,指出各自的特点,以便于人们更快、更容易地选择一种聚类算法解决特定问题和对聚类算法作进一步的研究。并给出了相应的算法评价标准、改进建议和聚类分析研究的热点、难点。上述工作将为聚类分析和数据挖掘等研究提供有益的参考。  相似文献   

6.
该文详细阐述了数据挖掘领域的常用聚类算法及改进算法,并比较分析了其优缺点,提出了数据挖掘对聚类的典型要求,指出各自的特点.以便于人们更快、更容易地选择一种聚类算法解决特定问题和对聚类算法作进一步的研究。并给出了相应的算法评价标准、改进建议和聚类分析研究的热点、难点。上述工作将为聚类分析和数据挖掘等研究提供有益的参考。  相似文献   

7.
本文研究了传统的凝聚层次聚类算法和k-means聚类算法及其它们的改进算法,并将他们结合起来提出了混合文本聚类算法,该算法可以挖掘出用户感兴趣的内容。  相似文献   

8.
基于k-means聚类算法的研究   总被引:4,自引:0,他引:4  
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法.通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高.通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义.  相似文献   

9.
该文详细阐述了数据挖掘领域的常用聚类算法及改进算法,并比较分析了其优缺点,提出了数据挖掘对聚类的典型要求,指出各自的特点,以便于人们更快、更容易地选择一种聚类算法解决特定问题和对聚类算法作进一步的研究。并给出了相应的算法评价标准、改进建议和聚类分析研究的热点、难点。上述工作将为聚类分析和数据挖掘等研究提供有益的参考。  相似文献   

10.
该文详细阐述了数据挖掘领域的常用聚类算法及改进算法,并比较分析了其优缺点,提出了数据挖掘对聚类的典型要求,指出各自的特点,以便于人们更快、更容易地选择一种聚类算法解决特定问题和对聚类算法作进一步的研究。并给出了相应的算法评价标准、改进建议和聚类分析研究的热点、难点。上述工作将为聚类分析和数据挖掘等研究提供有益的参考。  相似文献   

11.
针对无线传感器网络生存期和能量有效性问题,提出了一种分布式负载均衡的非均匀分簇算法(DLUC).算法采用分环模型和逐环数据传输的方式实现簇头间的多跳通信,通过在不同的环内设置不同的距离阈值,从而构建规模不等的簇,有效克服了网络中的"能量热点"问题.在多跳路由树形成阶段,综合考虑了中继簇头节点的能量与距离.仿真结果表明,与LEACH算法和EEUC算法相比,DLUC算法很大程度上均衡了网络节点的能量消耗,延长了网络生命周期.  相似文献   

12.
罗力源  施伟斌 《软件》2020,(4):155-159
多跳分簇低功耗路由协议(MHLeach,Multi-Hop Low Energy Adaptive Clustering Hierarchy)是一种用于数据汇聚的路由协议,它为传感器节点提供一种自组织、自适应的分簇组网方法。MHLeach将网络分割成若干个小簇,使簇内传感器节点按星型拓扑方式汇聚消息到簇首,而把簇间的簇首连接成具有多个分支的树形网络来组网。为提高MHLeach的可靠传输能力,本文提出基于链路质量估计的能量均衡路由协议ELQECHE,ELQECHE协议讨论链路质量对传输可靠性的影响,它将簇首间的链路质量作为一个重要指标,根据该链路质量来评估网络传输可靠性的高低,最后从邻居中选出传输可靠性较高的簇首作为转发节点。  相似文献   

13.
底欣  张百海 《计算机工程》2011,37(1):110-112
从保证无线传感器网络(WSN)感知覆盖性能角度出发,分析节点剩余能量、重叠感知覆盖率与簇头选择的关系,改进LEACH协议中簇头阈值选择前的信息采集过程,提出一种适用于高密度随机部署的WSN成簇算法。实验结果表明,该算法可有效保持网络感知覆盖率,从而延长网络寿命。  相似文献   

14.
针对K-Prototypes聚类算法中人为指定初始聚类中心和聚类数目导致算法准确度和稳定性低下的问题,提出了基于密度优化的K-Prototypes聚类算法,该算法根据数据对象的密度分布,自适应地优化聚类数目和初始聚类中心的设置,并通过区分每个属性对聚类结果的不同影响权重,改进相异度计算公式,提升聚类的准确度。在合成数据集和UCI数据集上实验结果表明,该算法与K-Prototypes算法、DPCM算法和Fuzzy K-Prototypes算法相比,平均准确率分别提高了8.52%、4.28%和8.33%,达到了相对较好的聚类结果。  相似文献   

15.
一种基于局部密度的分布式聚类挖掘算法   总被引:4,自引:1,他引:3  
倪巍伟  陈耿  吴英杰  孙志挥 《软件学报》2008,19(9):2339-2348
分布式聚类挖掘技术是解决数据集分布环境下聚类挖掘问题的有效方法.针对数据水平分布情况,在已有分布式密度聚类算法DBDC(density based distributed clustering)的基础上,引入局部密度聚类和密度吸引子等概念,提出一种基于局部密度的分布式聚类算法——LDBDC(local density based distributed clustering).算法适用于含噪声数据和数据分布异常情况,对高雏数据有着良好的适应性.理论分析和实验结果表明,LDBDC算法在聚类质量和算法效率方面优于已有的DBDC算法和SDBDC(scalable dellsity-based distributed clustering)算法.算法是有效、可行的.  相似文献   

16.
针对传统K_means聚类方法采用随机选择初始聚类中心而导致的收敛速度慢的问题,本文结合空间中的距离度量提出一种改进的K_means聚类算法。该方法通过给出有效的启发式信息,选择较好的聚类中心,减少聚类达到稳定状态所需要的迭代步骤,加速算法的执行。标准数据集上的实验结果表明,与传统的K_means聚类方法相比,本文提出的改进的聚类方法收敛速度快,从而在较少的迭代后得到良好的聚类效果。  相似文献   

17.
一种改进的谱聚类算法   总被引:2,自引:0,他引:2  
谱聚类算法是基于谱图理论的一类新的聚类算法,能对任意形状的数据进行划分,已经被成功应用到图像分割等领域.但谱聚类很难正确发现密度相差比较大的簇,参数的选取要靠多次实验和个人经验.结合DBSCAN的思想,充分考虑数据的局部结构,提出了一种基于近邻自适应尺度的改进谱聚类算法.其基本思想是根据数据点的近邻分布,对每个点设置一个近邻自适应尺度,代替标准谱聚类算法中的全局统一尺度.近邻自适应尺度简化了参数的选取,使得新算法对密度的变化不敏感,对离群点有一定的鲁棒性,同时比标准谱聚类更适合任意形状的数据分布.通过与传统的聚类算法和常见的谱聚类算法做比较,在人工数据集和实际数据集UCI上的实验都验证了本算法能够获得更好的聚类效果.  相似文献   

18.
一种改进的多视图聚类集成算法   总被引:1,自引:0,他引:1  
邓强  杨燕  王浩 《计算机科学》2017,44(1):65-70
近年来,针对大数据的数据挖掘技术和机器学习算法研究变得日趋重要。在聚类领域,随着多视图数据的大量出现,多视图聚类已经成为了一类重要的聚类方法。然而,大多数现有的多视图聚类算法受算法参数设置、数据样本等影响,具有聚类结果不稳定、参数需要反复调节等缺点。基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。其次,由于单机环境下的多视图聚类算法难以对海量的数据进行处理,结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。实验证明,并行算法在处理大数据时的时间效率有很大提升,适合于大数据环境下的多视图聚类分析。  相似文献   

19.
一种改进的基于密度的聚类算法   总被引:10,自引:0,他引:10  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,对噪声不敏感。而现有的该类算法对于空间数据分布不均匀的情况聚类效果不佳。鉴于此,文中提出一种改进的基于密度的聚类算法,保持了基于密度的聚类算法的优点,并且可以有效地处理分布不均的数据集,减少了时间复杂度,适用于对大规模数据库的挖掘与分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号