首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
在各种聚类算法中,基于目标函数的K-均值聚类算法应用最为广泛,然而,K-均值算法对初始聚类中心特别敏感,聚类结果易收敛于局部最优。为此,提出基于加权处罚的K-均值优化算法。每次迭代过程中,根据簇的平均误差的大小为簇分配权值,构造加权准则函数,把样本分给加权距离最小的簇中。限制簇集中出现平均误差较大的簇,提高聚类准确率。实验结果表明,该算法与K-均值算法、优化初始聚类中心的K-均值算法相比,在含有噪音的数据集中,表现出更好的抗噪性能,聚类效果更好。  相似文献   

2.
一类基于贝叶斯信息准则的k均值聚类算法   总被引:1,自引:0,他引:1  
典型k-均值算法中的聚类数k必须是事先给定的确定值,然而,实际应用中k很难被精确地确定。同时该算法对初始聚类中心的依赖性而导致聚类结果可能陷入局部极小,使得该算法对一些实际问题无效。采用基于密度聚类算法(DBSCAN),在筛选局部代表点时结合贝叶斯信息准则(BIC),得到少量精准反映局部数据分布的BIC核心点。然后,以BIC核心点为初始聚类中心,BIC核心点数量为类别数,对全局数据进行k-均值聚类。实验结果表明,优化的k-均值算法是一种有效可行的聚类算法。  相似文献   

3.
基于改进K -均值聚类的汉语语块识别   总被引:1,自引:0,他引:1  
为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导的统计方法和无指导的聚类方法有机结合,既提高了聚类的准确率,又避免了因汉语语块库规模较小而导致的数据稀疏现象.应用改进K-均值聚类方法对7种汉语语块进行识别,F值达到了92.94%,因此,该方法对汉语语块识别是有效的.  相似文献   

4.
判断聚类结果中是否存在误分类的簇,即簇中包含的样本不属于同一类。若存在,则在已有聚类结果上使用加权方案,处罚误分类的簇,输出新的聚类结果。若不存在,则输出已有聚类结果。限制簇集中存在误分类的簇,消除初始聚类中心对K-均值算法的影响,提高聚类准确率。实验结果表明,该算法与K-均值算法、优化初始聚类中心的K-均值算法相比,在坏的初始化条件下,表现出更好的鲁棒性;在含有噪音的数据集中,表现出更好的抗噪性能;聚类效果更好。  相似文献   

5.
传统的数据聚类统计方法仅适用于低维数据聚类问题,为此,本研究设计了基于模糊数据的高维稀疏数据聚类统计方法,以期提升高维稀疏数据的聚类统计效果。以模糊C均值聚类算法为基础,通过优化初始聚类中心解决局部最优问题,缩短聚类统计时间;然后引入权重机制,令该方法适用于高维稀疏数据聚类统计。基于此,以余弦距离替换原有的欧几里德距离,提高高维稀疏数据聚类统计效果。实验证明:在数据维度不同时,该方法均有较优的聚类统计效果。当数据维度较低时,分块比例为10%时聚类统计效果最优;当数据维度较高时,分块比例为40%时聚类统计效果最优。在不同稀疏度等级时,该方法的命中率和聚类统计效率均较高。  相似文献   

6.
K-均值算法因其简单和高效性, 在文本聚类中占有重要地位. 针对传统的K-均值算法对初始点敏感、易陷入局部最优的问题, 结合遗传算法已经成为一种趋势. 在充分发挥K-均值算法的高效性的同时, 该文利用遗传算法的全局自适应优化特点克服了对初始点敏感的问题. 同时, 以余弦度量评价对象间的相似性并以此构造新的遗传算法适应度函数、收敛准则以及遗传算法种群更新方式, 提高了K-均值和遗传算法这种结合方式的聚类精度, 并增强了该结合算法的稳定性.  相似文献   

7.
针对全局K-均值算法时间复杂度大的问题,提出一种增量选择初始聚类中心的新方法。选择数据集中周围分布最密集的样本作为第一个初始聚类中心,选择最小化目标函数贡献大,并且和已有聚类中心距离远的样本作为下一个初始聚类中心。改进算法减少了增量选取初始聚类中心时的计算量,降低了时间复杂度。实验证明,改进算法与全局K-均值算法、快速全局K-均值算法相比,在不影响聚类效果的基础上,减少了聚类时间,与优化初始聚类中心的算法相比,聚类效果更优。  相似文献   

8.
针对电价变化模式的复杂性,提出了一种基于聚类分析的电价预测模型。该模型将复杂的电价预测问题分解为更简单的子问题求解,首先通过聚类技术将输入空间划分为若干特征更明显的子空间,然后在子空间内分别使用支持向量机进行建模和预测。聚类分析中先应用减聚类算法自动确定聚类数并获取较优的初始聚类中心,然后采用K-均值算法进一步优化。采用美国PJM电力市场历史边际电价数据进行的仿真研究表明,电价预测模型能有效、稳定地提高电价预测精度。  相似文献   

9.
针对两阶段判别嵌入式聚类算法无法有效地反映数据的真实结构问题,提出一种两阶段判别嵌入模糊聚类算法。首先利用模糊C-均值算法对数据进行初始聚类,得到数据的初始隶属度矩阵,然后通过奇异值分解和求解最大散度差对数据降维处理,最后在低维子空间中对降维后的数据再次进行模糊C-均值聚类。通过对初始数据和降维后的数据进行模糊聚类提高算法的准确度。对比实验结果表明,该算法可获取最优聚类精度,并能更有效地反映数据的真实结构。  相似文献   

10.
K-均值(K-means)聚类算法是学术与工业领域的经典算法。然而,它却具有两个明显缺陷:1) 需要预先知道聚类的数量;2) 对算法的随机初始化非常敏感。为了解决这两个问题,首先归纳了K-均值算法的基本步骤,并对聚类有效性进行了分析;然后以数据样本点的欧几里德距离为基础,定义了以聚类数量k为自变量的类间质心距离之和以及类内距离之和,由此构造了聚类有效性评价函数;最后根据经验规则,在聚类数量的可能范围内通过求解聚类有效性评价函数的最小值以确定数据集的最优聚类数量。对UCI的3个数据集Iris、Seeds和Wine的仿真结果说明,提出的聚类有效性评价函数不仅能够准确地反映数据的真实聚类结构,还能有效地抑制算法对随机初始化的敏感性,通过对K-均值算法的多次运行,其结果也验证了聚类有效性评价函数的鲁棒性。  相似文献   

11.
K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间分布信息,计算样本方差得到样本紧密度信息,并基于样本紧密度选出满足条件的候选初始聚类中心;然后,对候选初始聚类中心进行处理,筛选出K个初始聚类中心。实验证明,算法具有较高的聚类性能,对噪声和孤立点具有较好的鲁棒性,且适合对大规模数据集聚类。  相似文献   

12.
一种面向入侵检测的半监督聚类算法   总被引:1,自引:1,他引:0  
为了解决传统的入侵检测聚类算法准确率较低这个问题,结合半监督学习的思想,提出了一种面向入侵检测的半监督聚类算法。首先利用样本数据集中的部分标记数据,生成用于初始化聚类的种子集,通过计算样本数据集中标记点与每个类簇中标记点均值的欧氏距离,得到每类的初始聚类中心,实现了入侵检测数据的准确识别。该算法有效地避免了传统聚类算法中初始聚类中心选择的盲目性和随机性,提高了检测率。实验结果表明,在处理入侵检测数据时,该算法能够充分利用少量类标记信息进行半监督学习,较传统的K-means算法聚类效果更好,检测准确率更高。  相似文献   

13.
提出了一种改进的基于粒子群优化的快速K均值算法,有效克服了K均值算法对初始聚类中心敏感和容易陷入局部最优从而影响聚类效果等缺点.与已有的粒子群优化聚类算法相比,该算法通过对样本各维属性进行规范化,预先计算样本的相异度矩阵,提出了一种简化的粒子的编码规则,基于相异度矩阵进行粒子群优化K均值聚类,在保证聚类效果的基础上,有效降低了计算的复杂度.在多个UCI数据集上的实验结果表明,该算法是有效的。  相似文献   

14.
传统K-means聚类算法的性能依赖于初始聚类中心的选择。本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的个节点作为聚类的初始聚类中心,然后进行聚类迭代过程。实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量。  相似文献   

15.
传统协同过滤方法面临数据稀疏问题,稀疏的用户-项目关联数据将产生不准确的相似用户或项目,为了改善推荐质量,提出一种基于Map Reduce的混合协同过滤方法.该方法利用用户特征和用户-项目评分数据构造项目偏好向量,然后使用模糊K-Means算法对项目进行聚类,并从每个项目簇中选择相似项目,最后组合所有项目簇的预测结果作出推荐.实验结果显示,该方法能缓解数据稀疏问题,改善推荐精度.  相似文献   

16.
针对协同过滤推荐系统应用中存在的数据稀疏、可扩展性受限等问题,提出了一种基于用户聚类的二分图网络协同推荐算法.该算法在用户聚类阶段对二分图网络进行用户中心聚类,并获取用户聚类中心及其所在的群组,基于用户群组的评价信息为目标用户提供更广泛的推荐数据;在协同推荐阶段,围绕聚类中心及其所在群组为未评分项目完成预测评分,为用户推荐综合评分最高的Top-n项目.结果表明,该算法能够提升目标用户推荐的准确度,并能改善协同推荐的多样性.  相似文献   

17.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

18.
数据挖掘技术中聚类算法的改进研究   总被引:1,自引:0,他引:1  
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法).该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇.理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号