共查询到20条相似文献,搜索用时 156 毫秒
1.
2.
一种基于改进PSO的K—means优化聚类算法 总被引:1,自引:0,他引:1
针对传统的K—means算法对初始聚类中心的选取敏感、容易收敛到局部最优的缺点,提出一种基于改进粒子群优化算法(PSO)的K—means优化聚类算法。该算法利用PSO算法强大的全局搜索能力对初始聚类中心的选取进行优化:通过动态调整惯性权重等参数增强PSO算法的性能;利用群体适应度方差决定算法中前部分PSO算法和后部分K—means算法的转换时机;设置变量实时监控各个粒子和粒子群的最优值变化情况,及时地对出现早熟收敛的粒子进行变异操作,从而为K—means算法搜索到全局最优的初始聚类中心,使聚类结果不受初始聚类中心影响,易于获得全局最优解。实验结果表明文中提出的改进算法与传统聚类算法相比具有更高的聚类正确率、更好的聚类质量及全局搜索能力。 相似文献
3.
4.
5.
针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概念并结合K近邻思想设计了全局搜索分配策略,通过不断将核心点的未分配K近邻正确归类以加快聚类速度,进而提出一种基于K近邻加权的统计学习分配策略,利用剩余点的K近邻加权信息来确定其被分配到各局部类的概率,有效提高了聚类质量。实验结果表明,IDPCA算法在21个典型的测试数据集上均有良好的适用性,而在与DPC算法及另外3种典型聚类算法的性能指标对比上,其优势更为明显。 相似文献
6.
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。 相似文献
7.
8.
一种新型的基于密度和栅格的聚类算法* 总被引:2,自引:1,他引:1
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。 相似文献
9.
基于K-means的文本聚类算法① 总被引:4,自引:0,他引:4
针对K—means算法容易收敛到局部最优以及对初值的依赖性,基于多次采样一次预聚类搜索初始聚类中心的思想,提出了一种改进的K—means文本聚类方法。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。 相似文献
10.
11.
针对粒子群优化(Particle Swarm Optimization,PSO)算法在维度高、特征稀疏的文本聚类过程中,随着算法迭代次数增加在后期陷入局部最优的问题,提出采用多样性更好的差分进化(Differential Evolution,DE)策略更新种群,尝试找到更好的全局最优解。考虑到种群个体间包含的聚类中心向量排列顺序的随机性对个体间的学习与更新的影响,提出一种自适应调整聚类中心向量排列顺序的方法,将个体间相似度最大的聚类中心向量尽可能排列在同一维度。通过在文本数据集上进行测试,验证了所提出的聚类中心排列调整差分进化粒子群(Index adaptive DEPSO,IDEPSO)算法在内部、外部指标上相对于其他现有算法的优势,证明了该算法的有效性和可行性。 相似文献
12.
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。 相似文献
13.
传统的K-means算法敏感于初始中心点的选取,并且无法事先确定准确的聚类数目[k],不利于聚类结果的稳定性。针对传统K-means算法的以上不足,提出了基于全局中心的高密度不唯一的新方法--NDK-means,该方法通过标准差确定有效密度半径,并从高密度区域中选取具有代表性的样本点作为初始聚类中心。此外算法针对最高密度点不唯一的情况进行特别分析,选取距离全局中心最远的点集作为最优的初始中心点集合。在NDK-means算法基础上结合有效性指标BWP对聚类结果进行分析,从而解决了最佳有效聚类数目无法事先确定的不足。理论研究与实验结果表明所提方法的聚类结果具有更好的稳定性和可行性。 相似文献
14.
针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algorithm)。对初始特征集,提出了基于PCA的矩阵分解策略(matrix factorization strategy,MFS),压缩原始特征集,提取主成分特征,解决特征变换过程中协方差矩阵规模较大的问题;基于主成分特征,提出基于误差约束的分层子空间构造算法(error-constrained hierarchical subspace construction algorithm,EHSCA),分层选取信息素特征,构建特征子空间,解决子空间特征信息覆盖不足的问题;在Spark环境下并行化训练决策树的过程中,设计了一种数据复用策略(data reuse strategy,DRS),通过垂直划分RDD数据并结合索引表,实现特征复用,解决了节点通信开销大的问题。实验结果表明PLA-PRF算法分类效果更佳,并行化效率更高。 相似文献
15.
在PSO算法的基础上提出的基于量子行为的QPSO算法,并将其应用到基因表达数据集上。QPSO基因聚类算法是将N条基因根据使TWCV(Total Within-Cluster Variation)函数值达到最小分到由用户指定的K个聚类中。根据K-means算法的优点,利用K-means聚类的结果重新初始化粒子群,结合QPSO和PSO的聚类算法提出了KQPSO和KPSO算法。通过在4个实验数据集上利用K-means、PSO、QPSO、KPSO、KQPSO 5个聚类算法得出的结果比较显示QPSO算法在基因表达数据分析上具有良好的性能。 相似文献
16.
提出了一种基于K-均值算法和EM算法混合聚类的彩色图像分割方法。首先将待分割的RGB彩色图像转化成YUV空间模型,然后将该图像分割成n小块,对每个块的颜色分量用改进的K-均值聚类算法进行聚类分析,最后用EM聚类算法对每个块进行聚类,分割源图像。对K-均值算法和EM算法的初始聚类中心引进了改进算法,加快了算法的收敛速度。并与相似的分割方法进行了比较实验,给出了详细的实验结果与分析。实验表明该方法分割速度快,效果好,具有较高的实用价值。 相似文献
17.
针对模糊C均值(Fuzzy C-Means,FCM)聚类算法对初始聚类中心和噪声敏感、对边界样本聚类不够准确且易收敛于局部极小值等问题,提出了一种K邻近(KNN)优化的密度峰值(DPC)算法和FCM相结合的融合聚类算法(KDPC-FCM)。算法利用样本的K近邻信息定义样本局部密度,快速准确搜索样本的密度峰值点样本作为初始类簇中心,改善FCM聚类算法存在的不足,从而达到优化FCM聚类算法效果的目的。在多个UCI数据集、单个人造数据集、多种基准数据集和Geolife项目中的6个较大规模数据集上的实验结果表明,改进后的新算法与传统FCM算法、DSFCM算法对比,有着更好的抗噪性、聚类效果和更快的全局收敛速度,证明了新算法的可行性和有效性。 相似文献
18.
19.
初始聚类中心是指在聚类的过程中首次被选为中心的点或对象。针对传统的K-means算法由于随机选择初始聚类中心而造成的聚类结果不稳定的问题,提出PCA-AKM算法。该算法利用主成分分析方法提取数据集中的主要成分,实现数据降维,使用自定义指标密权值选择初始聚类中心,避免聚类中心局部最优问题。将该算法与K-means算法在UCI数据集上进行聚类对比,其聚类稳定性高于传统K-means算法。 在KDD CUP99数据集上,对所提算法进行入侵检测仿真,实验结果证明该算法检测率高,误检率低,能够有效提高入侵检测的准确率。 相似文献
20.
针对城市道路交通状态影响因素多、判别难的特点,在分析K-均值聚类算法和概率神经网络(PNN)的基础上,利用多源检测信息的互补性,提出一种基于快速全局聚类分析的概率神经网络集成模型,通过聚类提高集成网络间的差异度,同时利用主成分分析(PCA)优化概率神经网络结构,仿真实验表明该模型与传统的集成方法Bagging相比,能够利用更简单的网络结构,快速有效地识别出城市道路交通状态,为交通预警和诱导策略的制定提供数据依据。 相似文献