首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
在负载自适应数据库系统中,负载特征化部件是关键部分,首先要对负载分类,然后根据分类的情况预测负载性能。负载的分类一般采用聚类算法,聚类算法中比较典型的就是K—means算法。但在K—means算法中,k值必须提前设定而且不能根据负载的实际情况改变,就是对算法的一个改进,使得k值动态的、能够根据负载的实际情况改变。实验结果表明,使用该算法的分类结果预测负载运行时间的准确性有明显提高。  相似文献   

2.
一种基于改进PSO的K—means优化聚类算法   总被引:1,自引:0,他引:1  
针对传统的K—means算法对初始聚类中心的选取敏感、容易收敛到局部最优的缺点,提出一种基于改进粒子群优化算法(PSO)的K—means优化聚类算法。该算法利用PSO算法强大的全局搜索能力对初始聚类中心的选取进行优化:通过动态调整惯性权重等参数增强PSO算法的性能;利用群体适应度方差决定算法中前部分PSO算法和后部分K—means算法的转换时机;设置变量实时监控各个粒子和粒子群的最优值变化情况,及时地对出现早熟收敛的粒子进行变异操作,从而为K—means算法搜索到全局最优的初始聚类中心,使聚类结果不受初始聚类中心影响,易于获得全局最优解。实验结果表明文中提出的改进算法与传统聚类算法相比具有更高的聚类正确率、更好的聚类质量及全局搜索能力。  相似文献   

3.
基于密度聚类的思想,提出了一种改进的K—means算法。算法吸取密度聚类算法的优点,利用对象的t-邻域密度作为选择初始聚类中心点的条件.选出较优的初始中心点,从而得到较好的聚类效果。通过实验表明,此方法相对于随机选取初始聚类中心点准确率较高、稳定性强、可伸缩性好。  相似文献   

4.
对于具有海量信息的个性化推荐问题。K—means聚类算法的传统实现方式已不能快速准确地满足要求。基于目前最为流行的开源云计算平台Hadoop及分布式计算框架MapReduce,实现K—means聚类算法的并行化。给出该算法的具体实现,实验表明能够较好地解决时间瓶颈问题。  相似文献   

5.
针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概念并结合K近邻思想设计了全局搜索分配策略,通过不断将核心点的未分配K近邻正确归类以加快聚类速度,进而提出一种基于K近邻加权的统计学习分配策略,利用剩余点的K近邻加权信息来确定其被分配到各局部类的概率,有效提高了聚类质量。实验结果表明,IDPCA算法在21个典型的测试数据集上均有良好的适用性,而在与DPC算法及另外3种典型聚类算法的性能指标对比上,其优势更为明显。  相似文献   

6.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

7.
针对传统K—means算法中对初始化聚类中心敏感,容易陷入局部极小值等缺点,提出了一种基于粒子群算法和多类合并方法的新型K-means聚类算法.该算法首先利用改进粒子群算法选取初始聚类中心,然后利用K—means算法进行优化聚类,最后根据多类合并条件进行聚类合并,以获取最佳聚类结果.实验结果证明,该算法能有效解决传统K—means算法存在的缺陷,具有更快的收敛速度及更好的全局搜索能力,聚类划分效果更优.  相似文献   

8.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

9.
基于K-means的文本聚类算法   总被引:4,自引:0,他引:4  
针对K—means算法容易收敛到局部最优以及对初值的依赖性,基于多次采样一次预聚类搜索初始聚类中心的思想,提出了一种改进的K—means文本聚类方法。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。  相似文献   

10.
可间断运行的K-means聚类算法   总被引:1,自引:1,他引:0  
引入事务的恢复机制改进K—means算法,改进后的算法允许在运行过程中的任何时刻停机,重新启动后可在停机前运算成果的基础上继续运算,直至算法结束。改进后的算法使得普通机器条件下针对大数据集运用K—means算法成为可能。改进后的算法在长达400h的聚类运算中得到了检验。  相似文献   

11.
针对粒子群优化(Particle Swarm Optimization,PSO)算法在维度高、特征稀疏的文本聚类过程中,随着算法迭代次数增加在后期陷入局部最优的问题,提出采用多样性更好的差分进化(Differential Evolution,DE)策略更新种群,尝试找到更好的全局最优解。考虑到种群个体间包含的聚类中心向量排列顺序的随机性对个体间的学习与更新的影响,提出一种自适应调整聚类中心向量排列顺序的方法,将个体间相似度最大的聚类中心向量尽可能排列在同一维度。通过在文本数据集上进行测试,验证了所提出的聚类中心排列调整差分进化粒子群(Index adaptive DEPSO,IDEPSO)算法在内部、外部指标上相对于其他现有算法的优势,证明了该算法的有效性和可行性。  相似文献   

12.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

13.
传统的K-means算法敏感于初始中心点的选取,并且无法事先确定准确的聚类数目[k],不利于聚类结果的稳定性。针对传统K-means算法的以上不足,提出了基于全局中心的高密度不唯一的新方法--NDK-means,该方法通过标准差确定有效密度半径,并从高密度区域中选取具有代表性的样本点作为初始聚类中心。此外算法针对最高密度点不唯一的情况进行特别分析,选取距离全局中心最远的点集作为最优的初始中心点集合。在NDK-means算法基础上结合有效性指标BWP对聚类结果进行分析,从而解决了最佳有效聚类数目无法事先确定的不足。理论研究与实验结果表明所提方法的聚类结果具有更好的稳定性和可行性。  相似文献   

14.
针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algorithm)。对初始特征集,提出了基于PCA的矩阵分解策略(matrix factorization strategy,MFS),压缩原始特征集,提取主成分特征,解决特征变换过程中协方差矩阵规模较大的问题;基于主成分特征,提出基于误差约束的分层子空间构造算法(error-constrained hierarchical subspace construction algorithm,EHSCA),分层选取信息素特征,构建特征子空间,解决子空间特征信息覆盖不足的问题;在Spark环境下并行化训练决策树的过程中,设计了一种数据复用策略(data reuse strategy,DRS),通过垂直划分RDD数据并结合索引表,实现特征复用,解决了节点通信开销大的问题。实验结果表明PLA-PRF算法分类效果更佳,并行化效率更高。  相似文献   

15.
在PSO算法的基础上提出的基于量子行为的QPSO算法,并将其应用到基因表达数据集上。QPSO基因聚类算法是将N条基因根据使TWCV(Total Within-Cluster Variation)函数值达到最小分到由用户指定的K个聚类中。根据K-means算法的优点,利用K-means聚类的结果重新初始化粒子群,结合QPSO和PSO的聚类算法提出了KQPSO和KPSO算法。通过在4个实验数据集上利用K-means、PSO、QPSO、KPSO、KQPSO 5个聚类算法得出的结果比较显示QPSO算法在基因表达数据分析上具有良好的性能。  相似文献   

16.
混合聚类彩色图像分割方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种基于K-均值算法和EM算法混合聚类的彩色图像分割方法。首先将待分割的RGB彩色图像转化成YUV空间模型,然后将该图像分割成n小块,对每个块的颜色分量用改进的K-均值聚类算法进行聚类分析,最后用EM聚类算法对每个块进行聚类,分割源图像。对K-均值算法和EM算法的初始聚类中心引进了改进算法,加快了算法的收敛速度。并与相似的分割方法进行了比较实验,给出了详细的实验结果与分析。实验表明该方法分割速度快,效果好,具有较高的实用价值。  相似文献   

17.
针对模糊C均值(Fuzzy C-Means,FCM)聚类算法对初始聚类中心和噪声敏感、对边界样本聚类不够准确且易收敛于局部极小值等问题,提出了一种K邻近(KNN)优化的密度峰值(DPC)算法和FCM相结合的融合聚类算法(KDPC-FCM)。算法利用样本的K近邻信息定义样本局部密度,快速准确搜索样本的密度峰值点样本作为初始类簇中心,改善FCM聚类算法存在的不足,从而达到优化FCM聚类算法效果的目的。在多个UCI数据集、单个人造数据集、多种基准数据集和Geolife项目中的6个较大规模数据集上的实验结果表明,改进后的新算法与传统FCM算法、DSFCM算法对比,有着更好的抗噪性、聚类效果和更快的全局收敛速度,证明了新算法的可行性和有效性。  相似文献   

18.
林亚忠  顾金库  郝刚 《计算机工程》2011,37(13):216-218
在处理不均匀图像时,自适应距离保持水平集演化(ADPLS)算法速度快、不受初始轮廓影响,但精度较低;LBF算法精度高,但速度较慢同时易受初始轮廓影响。针对上述2种算法的优缺点,提出一种新的自适应融合算法。该算法根据图像信息自动调整ADPLS与局部二值拟合算法在融合算法中所占比重,实现不同算法的优势互补。实验结果证明,该融合算法在分割精度、速度及稳定性等方面有明显提高。  相似文献   

19.
牛雷  孙忠林 《计算机科学》2018,45(2):226-230
初始聚类中心是指在聚类的过程中首次被选为中心的点或对象。针对传统的K-means算法由于随机选择初始聚类中心而造成的聚类结果不稳定的问题,提出PCA-AKM算法。该算法利用主成分分析方法提取数据集中的主要成分,实现数据降维,使用自定义指标密权值选择初始聚类中心,避免聚类中心局部最优问题。将该算法与K-means算法在UCI数据集上进行聚类对比,其聚类稳定性高于传统K-means算法。 在KDD CUP99数据集上,对所提算法进行入侵检测仿真,实验结果证明该算法检测率高,误检率低,能够有效提高入侵检测的准确率。  相似文献   

20.
针对城市道路交通状态影响因素多、判别难的特点,在分析K-均值聚类算法和概率神经网络(PNN)的基础上,利用多源检测信息的互补性,提出一种基于快速全局聚类分析的概率神经网络集成模型,通过聚类提高集成网络间的差异度,同时利用主成分分析(PCA)优化概率神经网络结构,仿真实验表明该模型与传统的集成方法Bagging相比,能够利用更简单的网络结构,快速有效地识别出城市道路交通状态,为交通预警和诱导策略的制定提供数据依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号