首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对传统K中心聚类算法存在的初始化敏感、聚类结果多样化等问题,提出一种基于密度的K中心聚类方案,并与序列比对、动态规划等方法有机地融合在一起,实现了对核酸序列的聚类分析。实验表明,该方案与传统K中心聚类算法相比较,初始化较理想,迭代次数较少,聚类效果更优。  相似文献   

2.
带障碍约束的遗传K中心空间聚类分析   总被引:1,自引:0,他引:1       下载免费PDF全文
空间聚类分析是空间数据挖掘中的一个重要研究课题。传统聚类算法忽略了真实世界中许多约束条件的存在,而约束条件的存在会影响聚类结果的合理性。讨论了带障碍约束的空间聚类问题,研究了一种基于遗传和划分相结合的带障碍约束空间数据聚类分析方法,设计了一个带障碍约束的遗传K中心空间聚类分析算法。对比实验表明,该方法兼顾了局部收敛和全局收敛性能,考虑到了现实障碍物对聚类结果的影响,使得聚类结果更具有实际意义,其结果优于传统K中心聚类及单纯的遗传聚类,不足之处是其计算速度相对较慢。  相似文献   

3.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

4.
基于粒子群优化的带障碍约束空间聚类分析   总被引:1,自引:0,他引:1  
聚类分析是空间数据挖掘的主要方法之一.传统聚类算法忽略了真实世界中许多约束条件的存在,而约束条件的存在会影响聚类结果的合理性.在分析K中心聚类方法易陷入局部极小值和对初始值敏感的基础上,提出了一种新的聚类方法--基于粒子群优化的带障碍约束空间聚类方法.实验结果表明,该聚类方法不仅使得聚类结果更具实际意义,而且在全局寻优能力方面明显优于K中心聚类方法,且有较快的收敛速度.  相似文献   

5.
K均值聚类算法在数据挖掘、机器学习领域被广泛应用。但其初始聚类中心的选取对整个聚类效果会产生很大的影响,因此,如何合理地初始化K均值聚类算法成为重要的研究方向。提出一种基于数据内在密集性的自适应初始聚类中心选取方法。该方法分为两个过程,第一个过程给出数据密集性的定义,并基于数据密集性选出满足条件的候选初始聚类中心,第二个过程是对选出的候选初始中心进行后处理,使其个数与数据类一致。实验证明,提出的方法有如下优势:1)能够自主发现数据集中数据分布的密集性,并能够合理找出初始聚类中心;2)对离群点和噪声鲁棒;3)减少了K均值聚类算法的迭代步骤;4)易于实现。  相似文献   

6.
黄会雄 《计算机应用与软件》2009,26(11):246-248,285
提出一种改进的基于遥感图像的颜色和纹理特征进行聚类的K均值算法。该算法通过统计图像色度直方图的峰值,来获得三组聚类个数和初始聚类中心,并结合色度和基于灰度共生矩阵的纹理特征形成图像聚类特征,然后进行改进的K均值聚类,最后选择silhouette均值最大的一组作为最佳聚类结果。该方法的随机性和聚类误差比传统K均值算法小,实验结果证实了该方法的可行性和有效性。  相似文献   

7.
基于图的K-均值聚类法中初始聚类中心选择   总被引:6,自引:1,他引:5  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始类簇中心须事先设定,而初始类簇中心的选择严重影响聚类的结果;为了改善K均值聚类算法的聚类效果,针对以往K均值聚类算法中采用随机指定初始类簇中心的方法.提出了一种基于图论的连通分支来进行初始类簇中心的选取算法,并用随机样本发生器生成的模拟数据进行测试,通过与常规的随机选取方法的比较,该算法具有更好的性能和健壮性.  相似文献   

8.
一种改进的K—means聚类算法   总被引:1,自引:0,他引:1  
K—means算法是最常用的一种基于划分的聚类算法,但该算法需要事先指定K值、随机选择初始聚类中心等的缺陷,从而影响了K—means聚类结果的稳定性。针对K—means算法中的初始聚类中心是随机选择这一缺点进行改进,利用提出的新算法确定初始聚类中心,然后进行聚类,得出最终的聚类结果。实验证明,该改进算法比随机选择初始聚类中心的算法性能得到了提高,并且具有更高的准确性及稳定性。  相似文献   

9.
为了改善K均值聚类算法对初始聚类中心敏感和易于陷入局部最优的不足,提出人工蜂群算法和K均值聚类算法相结合的想法,即基于人工蜂群优化的K均值聚类算法。通过全局寻优能力强的人工蜂群算法初始化K均值的聚类中心并优化聚类中心的位置,从而帮助K均值跳出局部极值,优化聚类效果。将混合聚类算法用Iris、Red Wine和New Red Wine数据集做聚类测试,结果表明该算法既克服了原始K均值聚类算法容易受初始聚类中心影响和不稳定的缺点,又具有良好的性能和聚类效果。  相似文献   

10.
为解决K‐M eans算法对初始聚类中心的敏感性,提出基于精细簇的K‐M eans稳定算法。采用基于密度算法的预分类技术来获得高密度的核心类,确定能够代表数据集结构的类层次树;根据类层次树中具有较高代表性的子类中心进行K‐M eans聚类,获得精细簇;按照层次树中的类归属合并精细簇,获得精确稳定的聚类效果。实验结果表明,该方法能够克服K‐M eans由于随机初始质心造成的结果不稳定性,一定程度上提高了聚类效果。  相似文献   

11.
为了对数字电视用户浏览行为进行有效分析,提出了应用于数字电视用户浏览行为的二分K-Medoids算法。针对欧氏距离容易丢失数据信息,受异常值影响较大的缺点,利用云相似度对聚类算法进行了改进,减少异常数据等不确定因素对聚类结果的影响;针对K-Means 算法易受人为因素影响的迭代次数、大数据环境下聚类中心不再变化难以实现等停止准则问题,使用了一种综合类内、类间相似度和类簇个数三个因素的停止准则,在不过度消耗系统资源同时又能满足实际的聚类需求。在实验中,将基于云相似度的二分K-Medoids (BKS)、基于云相似度的K-Medoids(KS)算法在不同用户数量下进行测试,实验结果表明,提出的算法提高了聚类准确性和算法的鲁棒性。  相似文献   

12.
为了解决传统K-Medoids聚类算法在处理海量数据信息时所面临的内存容量和CPU处理速度的瓶颈问题,在深入研究K-Medoids算法的基础之上,提出了基于MapReduce编程模型的K-Medoids并行化算法思想。Map函数部分的主要任务是计算每个数据对象到簇类中心点的距离并(重新)分配其所属的聚类簇;Reduce函数部分的主要任务是根据Map部分得到的中间结果,计算出新簇类的中心点,然后作为中心点集给下一次MapReduce过程使用。实验结果表明:运行在Hadoop集群上的基于MapReduce的K-Medoids并行化算法具有较好的聚类结果和可扩展性,对于较大的数据集,该算法得到的加速比更接近于线性。  相似文献   

13.
由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其优点是可以有效处理孤立、噪声点,但面临着初始中心敏感、容易陷入局部最优值、处理大数据时的CPU和内存瓶颈等问题。为解决上述问题,提出了一种MapReduce架构下基于遗传算法的K-Medoids聚类。利用遗传算法的种群进化特点改进K-Medoids算法的初始中心敏感的问题,在此基础上,利用MapReduce并行遗传K-Medoids算法提高算法效率。通过带标签的数据集进行实验的结果表明,运行在Hadoop集群上的基于MapReduce和遗传算法的K-Medoids算法能有效提高聚类的质量和效率。  相似文献   

14.
传统聚类算法K-Medoids对初始点的选择具有随机性,容易产生局部最优解;替换聚类中心时采用的全局顺序替换策略降低了算法的执行效率;同时难以适应海量数据的运算。针对上述问题,提出了一种云环境下的改进K-Medoids算法,该改进算法结合密度法和最大最小原则得到优化的聚类中心,并在Canopy区域内对中心点进行替换,再采用优化的准则函数,最后利用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展。实验结果表明,该改进算法与传统算法相比对初始中心的依赖降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。  相似文献   

15.
Numerous domestic and foreign studies have demonstrated that music can relieve stress and that listening to music is one method of stress relief used presently. Although stress-relief music is available on the market, various music genres produce distinct effects on people. Clinical findings have indicated that approximately 30 % of people listen to inappropriate music genres for relaxation and, consequently, their stress level increases. Therefore, to achieve the effect of stress relief, choosing the appropriate music genre is crucial. For example, a 70-year-old woman living in a military community since childhood might not consider general stress-relief music to be helpful in relieving stress, but when patriotic songs are played, her autonomic nervous system automatically relaxes because of her familiarity with the music style. Therefore, people have dissimilar needs regarding stress-relief music. In this paper, we proposed a personalized stress-relieving music recommendation system based on electroencephalography (EEG) feedback. The system structure comprises the following features: (a) automated music categorization, in which a new clustering algorithm, K-MeansH, is employed to precluster music and improve processing time; (b) the access and analysis of users’ EEG data to identify perceived stress-relieving music; and (c) personalized recommendations based on collaborative filtering and provided according to personal preferences. Experimental results indicated that the overall clustering effect of K-MeansH surpassed that of K-Means and K-Medoids by approximately 71 and 57 %, respectively. In terms of accuracy, K-MeansH also surpassed K-Means and K-Medoids.  相似文献   

16.
聚类分析是数据挖掘中的核心技术,利用相关的可视化方法显示聚类结果,将数据分布以直观、形象的图形方式呈现给决策者,使得决策者可以直观地分析数据。I-Miner是一个企业级的数据挖掘工具,利用I-Miner软件进行聚类分析,并用多种方法将聚类结果可视化。通过S语言拓展软件功能,编程实现了K-Medoid算法、SOM算法、SOM与K-Medoids结合的聚类组合算法,尤其是在高维数据的可视化上,实现了星图法和SOM之U矩阵法,弥补软件中聚类和可视化模块较少的不足。  相似文献   

17.

Studies of biological evolution have generally focused on nucleotide or amino acid sequences of certain genes related to specific enzymes. Most phylogenetic tree constructions have been carried out using amino acid sequences and are used as a predictor to show evolutionary relationships. Phylogenetic analysis is usually performed based on multiple sequence alignment of a gene from different organisms including fungi. A number of programs have been introduced for gene clustering and phylogenetic analysis. For example, the most popular web-based program is Clustal Omega which is commonly used by biologists. When the number of uploaded sequences increases, this program not only works slowly but also the final constructed cladogram is confusing and incorrect from evolutionary point of view. In the present study, we used fungal hexosaminidases which are extracellular enzymes with a lot of applications in biotechnology but extremely varied and confusing in evolutionary terms. A standard taxonomy-based phylogenetic tree was constructed for 835 FH amino acid sequences retrieved from National Center for Biotechnology Information (NCBI) on March 16, 2015. Then a supervised multilayer perceptron (MLP) neural network was used to discriminate FH sequences. Based on relative frequency of amino acid in FH sequences, 41 neural networks were designed for seven levels from the phylum to family. Minimum accuracy of the neural network was equal to 99% at all seven discrimination levels. As a final step, an additional evaluation was performed on the designed model with 143 new released FH sequences extracted on July 1, 2015. The clustering results have shown a proper match with fungal taxonomy to show evolutionary relationships.

  相似文献   

18.
针对动态提高单载具堆垛机式自动化立体仓库拣选效率的问题,文中提出了一种基于共享货位存储与动态订单拣选策略下的货位分配与作业调度集成优化方法。将动态移库优化扩展到仓库的整个拣选生命周期,建立以双指令循环下堆垛机拣选任务所需的总作业时间最短为评价目标的数学模型,提出了一种基于K-Medoids聚类的粒子群优化(Particle Swarm Optimization,PSO)算法,用K-Medoids算法通过产品与订单的相关性进行初始货位的聚类分析,筛除劣质解的货位范围,并在K-Medoids聚类算法生成的解类簇基础上获得精确解。实验结果表明,考虑动态移库可以使仓库拣选效率提高20%,且该算法与传统PSO算法相比求解时间下降66%左右。  相似文献   

19.
张豪  陈黎飞  郭躬德 《计算机科学》2015,42(5):114-118, 141
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等.作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题.首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性.在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类.在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度.  相似文献   

20.
针对符号序列聚类中表示模型及序列间距离度量定义的困难问题,提出一种基于概率向量的表示模型及基于该模型的符号序列聚类算法。该模型引入符号序列的概率分布表示法,定义了一种基于概率分布差异的符号序列距离度量及该模型的目标函数,最后给出了一种符号序列K-均值型聚类算法,并在来自不同领域的实际应用序列集上进行了实验验证。实验结果表明,与基于子序列表示模型的符号序列聚类算法相比,所提方法在DNA序列和语音序列等具有较多符号的实际数据上,有效提高聚类精度的同时降低聚类时间50%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号