共查询到18条相似文献,搜索用时 62 毫秒
1.
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度。 相似文献
2.
针对海量文本聚类中面临的海量性、高维性以及聚类结果的可描述性难题,提出了一个并行的文本聚类混合算法parSHDC.该算法采用纵向的方式在多个处理机间划分数据集,根据频繁词集生成粗聚类,然后利用并行k-means算法精化粗聚类从而得到最终结果,并由k个频繁词集对聚簇提供描述.与另外两个并行聚类算法通过实验进行比较,parSHDC具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚类. 相似文献
3.
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高雏空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。 相似文献
4.
5.
6.
并行数据库的改进Hash划分方法及并行Join算法 总被引:3,自引:0,他引:3
文中提出了Hash划分的改进方法--IH划分,IH划分为结点扩充时数据的重新划分提供了方便,在论述IH划分的基础上,给出了基于该数据划人垢并行Join算法,利用已有数据分布,文中提出的并行Join算法提高算法的效率。最后,从理论上对以上并行算法的计算复杂性进行了分析。 相似文献
7.
对k-means聚类算法的改进 总被引:17,自引:6,他引:17
提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。 相似文献
8.
针对k-means聚类算法效率底、优化不足等问题,提出了一种基于变异的迭代k-meaus算法(ik-means)。该算法从k-means算法(随机k-means算法)所产生的初始解向量中随机选取一定比例的位置,对其中的类标号进行随机变异并优化;再通过多次迭代获得了相应的优化解。实验表明在数据集相同、基本k—means算法调用次数相同的条件下,ik-means算法相对于k-means算法具有运行效率高、解更优化的特点。 相似文献
9.
基于k-means聚类算法的研究 总被引:4,自引:0,他引:4
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法.通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高.通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义. 相似文献
10.
基于空间划分的细粒度并行演化算法 总被引:1,自引:1,他引:0
引入(μ+1)选择策略,提出在群体形成的最小凸集中随机均匀地生成新个体的空间划分选择策略,并将其引入细粒度并行演化模型中,提出了应用于此模型的新算法。给出了并行动算求解的仿真实例,并分析了新算法在防止早熟收敛方面的特性。 相似文献
11.
12.
13.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。 相似文献
14.
为降低k值的不确定性和初始聚类中心的随机性对聚类结果的影响,提出一种改进的遗传k-means聚类算法。采用并行计算的方式降低k值和初始聚类中心对聚类结果的影响,利用平均类内距和类间距设计适应度函数保证聚类结果的正确性,改进遗传算法的遗传算子来提高算法效率。通过UCI标准数据集验证了该算法的正确性和有效性,并应用于玉米良种选育中。实验结果表明,该算法能获得更优良的玉米品种,指导玉米选育工作。 相似文献
15.
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。 相似文献
16.
针对不完备信息系统的数据聚类问题,将集对分析理论引入k-means聚类中,同时为了更好地表示样本与类簇的关系,构建了一种面向不完备信息系统的集对k-means (Set pair k-means,SPKM)聚类算法。首先,基于集对理论提出了一种集对距离度量方法,并将该度量方法运用到k-means算法中,得到初步聚类结果;随后,对于同时属于多个类的样本,将其分配到相应类的边界域,对于只属于一个类的样本,将其分配到相应类的正同域或边界域,其中聚类结果由肯定属于该类簇的正同域、可能属于该类簇的边界域以及肯定不属于该类簇的负反域3个部分共同表示;最后通过选取UCI数据库中的6个数据集与4种对比算法进行实验评价。实验结果表明,SPKM算法在准确率、F1值、Jaccard系数、FMI和ARI等指标上均具有良好的聚类性能。 相似文献
17.
k均值聚类算法在入侵检测中已经得到了广泛的研究。该文在k均值算法基础上,提出了改进的k均值算法。将k均值算法和改进的k均值算法分别应用于入侵检测。试验结果表明,改进后的k均值算法能够避免k均值算法固有的缺点,并且有比较高的检测性能。 相似文献
18.
针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。 相似文献