首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
传统的K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感;凝聚层次聚类虽无需选择初始的聚类中心,但计算复杂度较高,而且凝聚过程不可逆。结合网络舆情的特点,深入剖析了K-Means聚类算法和凝聚层次聚类算法的优缺点,对K-Means聚类算法进行改进。改进后算法的核心思想是,结合两种算法分别在初始点选择和聚类过程两个方面的优势,进行整合优化。通过实验分析及实际应用表明,改进后的文本聚类算法在很大程度上可以提高网络舆情信息聚类结果的准确性、有效性以及算法的效率。  相似文献   

2.
摘 要 针对传统K-Means聚类算法对初始聚类中心的敏感性和随机性,造成容易陷入局部最优解和聚类结果波动性大的问题。结合密度法和最大化最小距离的思想,本文提出基于最近高密度点间的垂直中心点优化初始聚类中心的K-Means聚类算法,该算法首先选取相互间距离最大的K对高密度点,并以这K对高密度点的均值作为聚类的初始中心,然后再进行K-Means聚类。实验结果表明,该算法有效排除样本中含有的孤立点,并且聚类过程收敛速度快,聚类结果有更好的准确性和稳定性。  相似文献   

3.
K-Means聚类是视觉词典构造的常用方法,其聚类结果直接影响后续的特征量化效果和检索精度,而现有的K-Means聚类算法难以获得高质量的视觉词典。针对这种情况,提出局部化K-Means聚类算法。算法首先根据启发式原则将特征集划分成若干个独立的子集,并对各子集进行传统K-Means聚类,然后以各子集的聚类中心为对象进行加权K-Means聚类。上述过程不断迭代直至形成特定规模的视觉词典。实验结果表明,与现有算法相比,该算法提高了聚类质量。在SIFT特征集和标准数据集上进行的多组对比实验证明了该算法的有效性。  相似文献   

4.
K-Means算法随机选择聚类中心初始点,导致聚类器性能不稳定。对此,提出基于可变阈值的初始聚类中心选择方法(VTK-Means)。该算法选择距已有初始点距离大于一个阈值的样例作为初始聚类中心,并根据满足条件的初始聚类中心个数适当调整阈值。在10个UCI数据集上的实验结果表明,该算法性能明显优于K-Means算法。  相似文献   

5.
针对K-Means算法所存在的问题,提出了一种改进的K-Means算法,该方法通过选取相互距离最远的数据点作为初始聚类中心,能够很好地排除随机选取初始聚类中心点的影响.通过实验验证,相对于传统K-Means算法,改进K-Means算法能够获得更好的聚类效果.  相似文献   

6.
提出了一种利用类关联词和K-Means聚类算法实现对文本文档进行分类的方法。类关联词是与类主题相关、能反映类主题的单词或短语。根据文档中包含的类关联词,形成初始聚类中心。在聚类算法过程中,类关联词提供的信息被用来约束待分类文档与聚类中心的相似度比较,加快了算法的执行。实验证明了算法的有效性。  相似文献   

7.
针对现有的K-Means算法K值需要人工赋值、随机选取初始中心点、文本表示维度高且缺乏语义的缺陷,提出了一种基于概念格的K-Means算法——K-MeansBCC(K-means algorithm based on concept lattice)。将文本集经预处理转化为形式背景,在此基础上生成概念格;利用概念格中的概念表示文本,根据文本中概念的权重确定K值、选取初始中心点。最后设计了文本间的概念相似度计算公式,并由K-Means算法产生聚类结果。实验结果表明,该算法提高了聚类的效率和准确性。  相似文献   

8.
针对FCM算法应用于基因表达数据分析时存在的局限性,提出一种特征加权自适应FCM算法。该算法在FCM算法的基础上引入数据集预处理机制,可依据数据集的分布特征自适应地获取分类数目和初始聚类中心,并通过ReliefF算法实现特征权值的自动确定。同时,新算法考虑了不同属性对分类贡献的差异,在FCM算法中引入特征权重。将算法应用于真实基因表达数据集,实验结果表明,算法能够自适应地确定聚类数目、获得稳定性较好的聚类结果,而且具有较高的聚类精度。  相似文献   

9.
针对聚类算法中特征数据对聚类中心贡献的差异性及算法对初始聚类中心的敏感性等问题,提出一种基于知识量加权的直觉模糊均值聚类方法。首先将原始数据集直觉模糊化并改进最新的直觉模糊知识测度计算知识量,据此实现数据集特征加权,再利用核空间密度与核距离初始化聚类中心,以提高高维特征数据集的计算精度与聚类效率,最后基于类间样本距离与最小知识量原理建立聚类优化模型,得到最优迭代算法。基于UCI人工数据集的实验结果表明,所提方法较大程度地提高了聚类的准确性与迭代效率,分类正确率及执行效率分别平均提高了10.63%和31.75%,且具有良好的普适性和稳定性。该方法首次将知识测度新理论引入模糊聚类并取得优良效果,为该理论在其他相关领域的潜在应用开创了新例。  相似文献   

10.
针对现有的K-modes聚类初始类中心选择方法所存在的问题,本文提出一种基于加权密度的初始类中心选择算法。在该算法中,我们通过计算对象的加权密度来选择初始类中心,而在计算对象的加权密度时,不同的属性将根据其重要性被赋予不同的权重,从而可以有效地体现出不同属性之间的差异。  相似文献   

11.
针对K-Means算法在文本聚类过程中易陷入局部最优,造成文本聚类结果不准确的问题,提出了一种基于改进灰狼优化算法的K-Means文本聚类方法。在对文本数据进行分词、去停用词、特征提取以及文本向量化后,通过免疫克隆选择选出精英个体,并对精英个体进行深度探索以增加灰狼种群的多样性,避免早熟收敛现象的发生;将粒子群位置更新思想与灰狼位置更新结合,降低灰狼优化算法陷入局部极值的风险;与K-Means算法结合进行文本聚类。所提算法与K-Means算法、GWO-KMeans以及IPSK-Means算法相比,其准确率、召回率和F值平均都有明显提高,文本聚类结果更可靠。  相似文献   

12.
提出一种基于K-Means聚类的人工鱼群算法, 该算法利用人工鱼群算法鲁棒性较强且不易陷入局部最优值的特点, 动态的确定了聚类的数目和中心, 解决了K-Means聚类初始点选择不稳定的缺陷, 在此两种算法融合的基础上进行图像分割处理, 经试验证明该算法效果理想.  相似文献   

13.
传统的谱聚类算法对初始化敏感,针对这个缺陷,引入Canopy算法对样本进行“粗”聚类得到初始聚类中心点,将结果作为K-Means算法的输入,提出了一种基于Canopy和谱聚类融合的聚类算法(Canopy-SC),减少了传统谱聚类算法选择初始中心点的盲目性,并将其用于人脸图像聚类。与传统的谱聚类算法相比,Canopy-SC算法能够得到较好的聚类中心和聚类结果,同时具有更高的聚类精确度。实验结果表明了该算法的有效性和可行性。  相似文献   

14.
一种基于K-Means局部最优性的高效聚类算法   总被引:14,自引:0,他引:14  
K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样和K-Means预聚类以产生多组不同的聚类结果,来自不同聚类结果的子簇之间必然会存在交集.算法的核心思想是,利用这些交集构造出关于子簇的加权连通图,并根据连通性合并子簇.理论和实验证明,K-MeanScan算法可以在很大程度上提高聚类结果的质量和算法的效率.  相似文献   

15.
为解决传统聚类算法初始中心易陷入局部最优、耗时长的问题,提出一种改进的K-means聚类优化算法。该算法引入最大最小距离和加权欧氏距离,从剩余聚类点距离均值和出发,避免孤立点和边缘数据的影响。利用比重法对主成分进行改进,以由此获得的特征影响因子作为初始特征权重,构建一种加权欧氏距离度量。根据特征贡献率对聚类的影响,筛选具有代表性的特征因子凸显聚类效果,最终合成汽车行驶工况,分析瞬时油耗。结果表明,所提算法构建行驶工况的速度-加速度联合分布差异值仅为105%,比传统K-means聚类省时44.2%,行驶工况拟合度较高,能反映实际车辆的运行特征及油耗。   相似文献   

16.
基于Seed集的半监督核聚类   总被引:2,自引:1,他引:1       下载免费PDF全文
提出了一种新的半监督核聚类算法——SKK-均值算法。算法利用一定数量的标记样本构成seed集,作为监督信息来初始化K-均值算法的聚类中心,引导聚类过程并约束数据划分;同时还采用了核方法把输入数据映射到高维特征空间,并用核函数来实现样本之间的距离计算。在UCI数据集上进行了数值实验,并与K-均值算法和核-K-均值算法进行了比较。  相似文献   

17.
传统的协同过滤算法存在数据稀疏、可扩展性弱和用户兴趣度偏移等问题,算法运行效率和预测精度偏低。针对上述问题,提出一种改进的Mini Batch K-Means时间权重推荐算法。采用Pearson相关系数改进Mini Batch K-Means聚类,利用改进的聚类算法对稀疏评分矩阵进行聚类,计算用户兴趣评分并完成对稀疏矩阵的填充。考虑用户兴趣随时间变化的影响,引入牛顿冷却时间权重计算相似度,并基于已填充评分矩阵进行相似度加权计算,得到项目最终评分。实验结果表明,与传统协同过滤算法相比,该算法的平均绝对误差下降了31.08%,准确率、召回率、F1值均有较大提升,具有较高的评分预测精确度和准确度。  相似文献   

18.
利用两三次的K-Means迭代得到初始簇的中心,选择一组具有良好区分度的方向构建IMIC坐标系,在该坐标系下,构造出各坐标轴的重新标度函数用以提高聚类决策的有效性。算法IMIC经过多次迭代,最后收敛到最终解。IMIC算法的时间复杂度与K-Means保持在同一量级上。实验结果表明,IMIC算法有较好的聚类质量。  相似文献   

19.
基于信息熵的精确属性赋权K-means聚类算法   总被引:4,自引:0,他引:4  
为了进一步提高聚类的精确度,针对传统K-means算法的初始聚类中心产生方式和数据相似性判断依据,提出一种基于信息熵的精确属性赋权K-means聚类算法。首先利用熵值法对数据对象的属性赋权来修正对象间的欧氏距离,然后通过比较初聚类的赋权类别目标价值函数,选择高质量的初始聚类中心来进行更高精度和更加稳定的聚类,最后通过Matlab编程实现。实验证明该算法的聚类精确度和稳定性要明显高于传统K-means算法。  相似文献   

20.
王梅  宋晓晖  刘勇  许传海 《计算机应用》2022,42(11):3330-3336
针对K-Means聚类算法利用均值更新聚类中心,导致聚类结果受样本分布影响的问题,提出了神经正切核K-Means聚类算法(NTKKM)。首先通过神经正切核(NTK)将输入空间的数据映射到高维特征空间,然后在高维特征空间中进行K-Means聚类,并采用兼顾簇间与簇内距离的方法更新聚类中心,最后得到聚类结果。在car和breast-tissue数据集上,对NTKKM聚类算法的准确率、调整兰德系数(ARI)及FM指数这3个评价指标进行统计。实验结果表明,NTKKM聚类算法的聚类效果以及稳定性均优于K?Means聚类算法和高斯核K-Means聚类算法。NTKKM聚类算法与传统的K-Means聚类算法相比,准确率分别提升了14.9%和9.4%,ARI分别提升了9.7%和18.0%,FM指数分别提升了12.0%和12.0%,验证了NTKKM聚类算法良好的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号