共查询到20条相似文献,搜索用时 718 毫秒
1.
针对类属型数据聚类中对象间距离函数定义的困难问题,提出一种基于贝叶斯概率估计的类属数据聚类算法。首先,提出一种属性加权的概率模型,在这个模型中每个类属属性被赋予一个反映其重要性的权重;其次,经过贝叶斯公式的变换,定义了基于最大似然估计的聚类优化目标函数,并提出了一种基于划分的聚类算法,该算法不再依赖于对象间的距离,而是根据对象与数据集划分间的加权似然进行聚类;第三,推导了计算属性权重的表达式,得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验,结果表明,与基于距离的现有聚类算法相比,所提算法提高了聚类精度,特别是在生物信息学数据上取得了5%~48%的提升幅度,并可以获得有实际意义的属性加权结果。 相似文献
2.
3.
4.
一种大数据环境下的新聚类算法 总被引:2,自引:0,他引:2
提出了一种新的聚类算法NGKCA,该算法克服了经典聚类算法检测率和稳定性的不足,适用于解决大数据环境下的聚类问题。NGKCA聚类算法包括4个阶段:首先利用谱聚类NJW算法对大数据集进行列降维和数据归一化处理,其次引入对初始值不敏感的粒子群算法对数据集进行行降维从而选出临时的聚类中心集,接着通过全局Kmeans算法对最佳聚类中心集进行聚类以获取聚类中心点,最后使用粒子群算法对聚类中心点进行调整进而获取最终的聚类划分。在一些著名的机器学习数据集和国际标准的网络安全数据集KDDCUP99上进行实验,结果表明:提出的算法比谱聚类、Kmeans、粒子群、全局Kmeans等常见算法具有更好的稳定性和更高的检测率,与全局Kmeans算法相比具有更优的时间复杂度。 相似文献
5.
针对密度峰值快速聚类(CFSFDP)算法对不同数据集聚类效果的差异,利用谱聚类对密度峰值快速聚类算法加以改进,提出了一种基于谱分析的密度峰值快速聚类算法CFSFDP-SA。首先,将高维非线性的数据集映射到低维子空间上实现降维处理,将聚类问题转化为图的最优划分问题以增强算法对数据全局结构的适应性;然后,利用CFSFDP算法对处理后的数据集进行聚类。结合这两种聚类算法各自的优势,能进一步提升聚类算法的性能。在5个人工合成数据集(2个线性数据集和3个非线性数据集)与4个UCI数据库中真实数据集上的聚类结果显示,相比CFSFDP算法,CFSFDP-SA算法的聚类精度有一定提升,在高维数据集的聚类精度上最多提高了14%,对原始数据集的适应性更强。 相似文献
6.
《计算机应用与软件》2017,(7)
针对大规模、高维、稀疏的分类数据聚类,CLOPE算法相比于传统的聚类算法在聚类质量及运行速度上都有很大的提升。然而CLOPE算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子r等问题。为此,提出基于随机顺序迭代和属性加权的分类数据聚类算法(RW-CLOPE)。该算法利用"洗牌"模型对原始数据进行随机排序以排除数据输入顺序对聚类质量的影响。同时,根据信息熵计算各个属性的权重,以区别每维属性对聚类的贡献度,极大地提升了数据聚类的质量。最后,在高效的集群平台Spark上,实现了RW-CLOPE算法。在三个真实数据集上的实验结果表明:在数据集乱序后的份数相同时,RW-CLOPE算法比p-CLOPE算法取得更好的聚类质量。对蘑菇数据集,当CLOPE算法取得最优聚类结果时,RW-CLOPE比CLOPE取得高68%的收益值,比p-CLOPE取得高25%的收益值;针对大量数据,基于Spark的RW-CLOPE算法比基于Hadoop的p-CLOPE算法执行时间更短;计算资源充足时,随机顺序的数据集份数越多,执行时间的提升越明显。 相似文献
7.
针对K-means算法全局搜索能力的不足,提出了基于模拟谐振子的优化K-means聚类算法(SHO-KM),该算法克服了K-means聚类算法对初始聚类中心选择敏感问题,能够获得全局最优的聚类划分。为了提高聚类划分质量,在聚类过程中采用基于Fisher分值的属性加权的实体之间距离计算方法,使用属性加权距离计算方法进行聚类划分时,无论是球形数据还是椭球形数据都能够获得较好的聚类划分结果。对KDD-99数据集的仿真实验结果表明,该算法在入侵检测中获得了理想的检测率和误报率。 相似文献
8.
为提高聚类算法在对精度要求不高的大型数据集上的运行效率,通过比较各类聚类算法。提出了部分优先聚类算法,给出了部分优先聚类算法的相对优势和性能比较表;分析聚类成员产生方式和聚类融合方式来设计共识函数,在部分优先聚类算法的基础上,通过使用加权的方式来确定类中心后进行聚类融合,提高算法的精确度。实验结果表明了融合后的算法无论在扩展性、稳定性以及鲁棒性等方面都有着明显优势。 相似文献
9.
为解决现有高维海量数据离群点挖掘在时间与空间效率上的不足,提出了一种基于粗约简和网格的离群点检测算法RRGOD。算法在基于密度的离群点检测算法LOF的基础上,结合粗糙集理论特点,引入属性权值概念,淘汰属性权值低于重要度阈值的属性降低维度,从而减少了进行聚类的计算量。在网格聚类阶段,对传统的网格划分方法进行改进,引入属性维半径向量概念,提出了一种可变网格划分方法,根据数据集特点自适应地划分网格空间。在真实数据集和仿真数据集上进行了实验。结果表明,该算法在进行离群点检测时能在保持足够精确度的同时,检测效率有显著的改善。 相似文献
10.
11.
针对传统的LF蚁群聚类算法中存在的收敛速度慢,蚂蚁空载导致的资源浪费以及易陷入局部最优等问题,提出了一种蚁群改进算法。算法初期采用直接分配原则,直接将蚂蚁随机放在数据对象上,并生成随机的全局记忆,在聚类时负载蚂蚁移动受到全局记忆的指导,利用余弦相似度判断最相似的记忆中心,并向该记忆中心移动,全局记忆在一次迭代完成后更新。当蚂蚁拾起数据对象失败时,为了减少蚂蚁再一次的随机移动所带来的资源浪费,采用相异原则将蚂蚁移动到下一个数据对象上。改进的算法在UCI数据集Iris、Wine、Glass和Robotnavigation上进行验证,算法在保证原有算法准确率的基础上明显提高了收敛速度。 相似文献
12.
基于信息熵的蚁群聚类改进方法研究 总被引:1,自引:0,他引:1
从模仿蚂蚁堆积尸体的基本模型出发,可以实现蚁群聚类算法.研究了实现基本蚁群算法以及基于信息熵的蚁群聚类算法的关键方法,测试并验证了算法的有效性.同时,在比较其性能的基础上,主要针对基于信息熵的蚁群聚类算法收敛速度快,但却容易陷入局部最优的缺陷,从聚类拆分、合并、孤立点处理等几个方面对基于信息熵的蚁群聚类算法进行了改进,从而在利用其收敛速度快的基础上提高聚类的准确性.仿真实验表明:改进后的方法在聚类的准确性和收敛速度方面都得到了很好的结果,对基于信息熵的蚁群居类算法优化提供了比较好的应用改进. 相似文献
13.
14.
针对单一聚类算法在图像分割中容易陷人局部最优或有过分割现象,造成分割精确度低等问题,文章提出了基于K-均值聚类和蚁群聚类相结合的新算法.新算法先将K-均值算法作快速分类,根据K-均值分类结果更新蚂蚁各路径上的信息素,指导其他蚂蚁选择,以提高蚁群聚类算法的运行效率.实验结果证明,新算法在图像分割处理的精确度上较单一的K均... 相似文献
15.
针对蚁群聚类算法在聚类结果中出现部分数据划分不够准确的问题,提出一种基于信息熵调整的自适应混沌蚁群聚类改进算法。该算法通过优化过程中种群的信息熵来衡量演化的程度,自适应地调整信息素更新策略。每一次迭代结束时,使用混沌搜索算子在当前全局最优解附近搜索更好的解。而随着算法的进行,混沌算子搜索范围逐渐缩小,这样混沌算子在蚁群搜索的初期起到防止陷入局部最优的作用,在蚁群搜索后期起到提高搜索精度的作用,从而得到更好的聚类结果。使用KDD Cup 1999入侵检测数据集所作的仿真实验结果表明,聚类效果改进明显,并能有效提高入侵检测的检测率、降低误检率。 相似文献
16.
为提高边缘检测精准度,保证图片分割后效率和效果,本文提出一种基于融合模糊聚类的蚁群图像增强算法。该算法利用分量灰度值、灰度梯度值和领域特征值进行图像特征提取,得到特征灰度图;然后使用模糊聚类算法对区域蚂蚁进行聚类以提高收敛速度;再采用蚁群算法进行图像边缘检测,检测过程中,使用路径选择策略对蚁群进行有序搜索,提高搜索效率,又根据信息素更新策略进行最优路径信息交流,以达到边缘点提取与检索目的;最后将检索所得灰度边缘图与原图进行重合,得到图像增强效果。实验结果表明,该改进算法在检索时间方面相较于传统蚁群算法提高了20.7%;在精度方面提高了14.8%,图片分割效果更好,纹理更清晰。 相似文献
17.
18.
针对模糊C均值(FCM)聚类算法没有考虑样本不同属性的重要程度、邻域信息等问题,提出一种基于熵与邻域约束的FCM算法。首先通过计算样本各属性的熵值来为各属性赋予权重,结合属性权重改进距离度量函数;随后根据邻域样本与中心样本间的距离计算邻域隶属度权重,加权得到邻域隶属度,利用邻域隶属度约束目标函数,修正隶属度迭代过程,最终达到提升FCM聚类算法性能的目的。理论分析和在人造数据集、多个UCI数据集的试验结果表明,改进后的算法在聚类效果、鲁棒性上均优于传统FCM算法、PCM算法、KFCM算法、KPCM算法和DSFCM算法,表明了本文算法的有效性。 相似文献
19.
为了克服模糊C-均值(FCM)聚类算法易陷入局部极小值和对初始值敏感的缺点,提出了一种基于改进量子蚁群的模糊聚类算法。将量子计算原理和蚁群算法相结合来改进FCM算法。初期采用量子遗传算法生成信息素分布,后期利用蚁群算法的全局搜索性、并行计算性等特点避免聚类陷入局部最优解。实验证明该算法保证了种群的多样性,有较好的全局收敛性,克服了模糊C-均值聚类算法的不足,能有效解决未成熟收敛的问题,使聚类问题最终快速、有效地收敛到全局最优解。 相似文献
20.
传统的蚁群聚类算法将聚类数据的每一维属性都等同看待,而在实际的应用中各维属性对聚类的贡献率不一,具有主次之分,若将所有属性赋予相同的权重,将对聚类的效果造成影响.为了克服这个缺陷,本文将主成份分析(PCA)方法引入到蚁群聚类当中,利用PCA计算属性的贡献率并以此构建属性的权重.在此基础上,结合一个新的初始化策略,提出了一种属性带权的改进蚁群聚类算法.通过对多个UCI数据集的测试,验证了本算法的有效性.实验结果表明,合理的权重分配能够有效的提高蚁群聚类的质量. 相似文献