共查询到19条相似文献,搜索用时 656 毫秒
1.
2.
基于k-means聚类算法的研究 总被引:4,自引:0,他引:4
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法.通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高.通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义. 相似文献
3.
4.
研究数据挖掘,优化聚类循序算法,针对提高分类的效率和准确性难题,传统聚类算法不能自动聚类的问题,为提高聚类算法的收敛速度和寻优精度,提出了一种改进的自动聚类算法,从分析基因表达式编程和k均值算法的特点出发,融合了两种算法优点,实现了在未知簇划分信息的情况下对数据集自动进行聚类分析.实践中选择k-均值算法和改进算法对聚类进行了仿真检验.结果表明,将改进的自动聚类算法应用于GIS物流选址优化中,与传统聚类算法相比,改进的算法不仅具有比较快的收敛速度和聚类精度,而且使得聚类结果更有参考价值. 相似文献
5.
6.
7.
对切换回归模型的聚类方法一般都没有考虑到噪音的影响,因此在含有噪音数据的情况下,用这些方法聚类的结果就会出现一定的偏差.为了减弱聚类过程中噪音数据的影响,提出了一种新的具有抵抗噪音能力的聚类算法,称为抗噪音聚类算法.该算法通过将已知数据集划分为非噪音数据集和噪音数据集2个子集,然后对非噪音数据集进行聚类分析,估计出模型的各个参数.通过对噪音数据集和非噪音数据集进行不断地调整,同时不断地修正得到的参数估计值,从而得到对聚类结果的优化.实验表明,抗噪音聚类算法能够有效地克服噪音数据对聚类结果的影响,并估计出优质的参数. 相似文献
8.
基于K-means算法思想改进蚁群聚类算法聚类规则,提出一种新的K-means蚁群聚类算法,并通过实验验证其聚类效果;引入具有全局最优性的支持向量机SVM,取各类中心附近适当数据训练支持向量机,然后利用已获模型对整个数据集进行重新分类,进一步优化聚类结果,使聚类结果达到全局最优。UCI数据集实验结果表明,新的算法可以明显提高聚类质量。 相似文献
9.
10.
11.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。 相似文献
12.
指定K个聚类的多均值聚类算法在K-均值算法的基础上设置了多个次类,以改善K-均值算法在非凸数据集上的劣势,并将多均值聚类问题形式化为优化问题,可以得到更优的聚类效果。但是该算法对初始原型敏感,且随机选取原型的方式使聚类结果不稳定。针对上述问题,提出一种稳定的K-多均值聚类算法,并对该算法的复杂度与收敛性进行了简要讨论。该算法先基于数据样本的最邻近关系构造图,根据图的连通分支将数据分为若干组,取每组数据的均值点作为初始原型,再用交替迭代的方法对优化问题进行求解,得到最后的聚类结果。在人工数据集和真实数据集上的实验表明,该算法具有更稳定更优越的聚类效果。 相似文献
13.
Discovering interesting patterns or substructures in data streams is an important challenge in data mining. Clustering algorithms are very often applied to identify single substructures although they are designed to partition a data set. Another problem of clustering algorithms is that most of them are not designed for data streams. This paper discusses a recently introduced procedure that deals with both problems. The procedure explores ideas from cluster analysis, but was designed to identify single clusters without the necessity to partition the whole data set into clusters. The new extended version of the algorithm is an incremental clustering approach applicable to stream data. It identifies new clusters formed by the incoming data and updates the data space partition. Clustering of artificial and real data sets illustrates the abilities of the proposed method. 相似文献
14.
针对LF蚁群聚类算法没有区分数据集属性重要度、算法效率低和聚类效果不稳定的问题,提出一种基于熵权的全局记忆LF算法(weighted global ant colony optimization, WGACO)。该算法首先通过熵权法计算各属性熵权,修改欧氏距离计算公式,以提升聚类精度;使用权重最大的属性值对数据对象进行初始化,增强聚类效果的稳定性;引入全局记忆矩阵减少蚂蚁的无效移动,提升算法效率;加入算法的收敛条件,提升算法实用性。选取UCI数据库中的7个真实数据集和3个人工生成的数据集进行数值实验,并与GMACO、SMACC、ILFACC三种改进LF的算法进行比较,实验结果表明,所提算法在精度、算法效率和稳定性上都有比较好的提升,在处理高维数据上也有较好的表现。最后,WGACO在商场会员用户细分上表现良好,体现了其实用价值。 相似文献
15.
16.
文本聚类算法的设计与实现 总被引:1,自引:1,他引:0
为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高. 相似文献
17.
针对密度峰值聚类算法在面对复杂结构数据集时容易出现分配错误的问题,提出一种优化分配策略的密度峰值聚类算法(ODPC)。新算法首先引入参数积γ,扩大了聚类中心的选取范围;然后使用改进的数据点分配策略,对数据集的数据点进行基于相似度指标MS的重新分配,进一步优化了簇类中点集的分配;最后使用dc近邻法优化识别数据集的噪声点。在人工数据集及UCI真实数据集上的实验均可证明,新算法能够在优化噪声识别的同时,提高复杂流形数据集中数据点分配的正确率,并取得比DPC算法、DenPEHC算法、GDPC算法更好的聚类效果。 相似文献
18.
为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Spark和K-means算法,并分析了K-means算法聚类不稳定性的成因和影响,其目的在于指出优化K-means算法的重要性;详细介绍了目前在Spark环境下优化K-means初始中心点的主要方法和最新研究现状,并展望了K-means初始中心点优化问题的未来研究方向。 相似文献
19.
聚类算法是近年来国际上机器学习领域的一个新的研究热点。为了能在任意形状的样本空间上聚类,学者们提出了谱聚类和图论聚类等优秀的算法。首先介绍了图论聚类算法中的谱聚类经典NJW算法和NeiMu图论聚类算法的基本思路,提出了改进的自适应谱聚类NJW算法。提出的自适应NJW算法的优点在于无需调试参数,即可自动求出聚类个数,克服了经典NJW算法需要事先设置聚类个数且需反复调试参数δ才能得出数据分类结果的缺点。在UCI标准数据集及实测数据集上对自适应NJW算法与经典NJW算法、自适应NJW算法与NeiMu图论聚类算法进行了比较。实验结果表明,自适应NJW算法方便快捷,且具有较好的实用性。 相似文献