期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

2篇

专业分类

2篇

出版年

2020年	1篇
2019年	1篇

排序方式： 共有2条查询结果，搜索用时 15 毫秒

优化初始聚类中心的K-means聚类算法 总被引：1，自引：0，他引：1

下载免费PDF全文

郭永坤章新友刘莉萍丁亮牛晓录《计算机工程与应用》2020,56(15):172-178

针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]（[α]为样本集数据点数目与聚类的簇类数目的比值）,再把该集合从样本集中删除,重复以上步骤得到K（K为簇类数目）个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。相似文献

基于Spark的并行关联规则挖掘算法研究综述

下载免费PDF全文

刘莉萍章新友牛晓录郭永坤丁亮《计算机工程与应用》2019,55(9):1-9

关联规则挖掘是数据挖掘的一个重要分支，但随着数据的快速增长，传统关联规则挖掘算法不能很好地适应大数据的要求，需要在分布式、并行计算的平台上寻找突破。Spark是专门为大数据处理而设计的一个适合迭代运算的并行计算模型，相比MapReduce具有更高效、充分利用内存、更适合迭代计算和交互式处理的优点。对已有的基于Spark的并行关联规则挖掘算法进行了分类和综述，并总结了各自的优缺点和适用范围，为下一步的研究提供参考。相似文献