首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
牛科  张小琴  贾郭军 《计算机工程》2015,41(1):207-210,244
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。  相似文献   

2.
在现有多种距离度量和传统谱聚类算法的基础上,提出了一种新的基于有效距离的谱聚类算法(spectral clustering based on effective distance,SCED)。SCED算法通过稀疏重构系数来构建样本与样本之间的有效距离,从而代替传统谱聚类算法中的欧氏距离,进行样本之间的相似度评估。与传统距离度量相比,有效距离不仅利用了样本对之间的距离信息,同时考虑了目标样本与其他所有相关样本之间的距离信息,因而该距离度量具有全局特性。在UCI标准数据集上的实验结果表明,SCED算法能有效提高聚类效果。  相似文献   

3.
采用精英策略的非支配排序遗传算法(NSGA-II)种群收敛分布不均匀,全局搜索能力较弱。针对该问题,基于现有的算法,提出一种基于聚类学习机制的多目标进化算法KMCNSGA—II。利用K均值聚类对目标函数和个体分别进行聚类,对聚类后的个体进行局部学习,以提高适应度。将该算法应用于经典的多目标约束和非约束测试函数中,通过收敛性指标世代距离和多样性指标△进行性能评价。实验结果表明,与NSGA—II算法相比,该算法在算法收敛性和种群多样性保持方面均有明显提高。  相似文献   

4.
提出融合K均值与改进磷虾群算法的多目标文本聚类算法。利用K均值的局部快速寻优和改进磷虾群的全局搜索能力,以K均值聚类解作为改进磷虾群的初始种群,引入遗传交叉和变异改善个体多样性,提升全局搜索能力;通过磷虾种群的诱导运动、觅食运动和随机扩散进行位置更新,引入余弦相似度和欧氏距离的多目标适应度函数评估磷虾位置优劣,搜索全局最优解。通过基准数据集实验确定磷虾群算法的关键参数,进行系统聚类测试,实验结果表明,该算法在聚类指标上表现更佳,聚类准确性更高,收敛速度更快。  相似文献   

5.
针对因使用基于距离的相似性度量,传统聚类内部指标随着数据维数的增加而性能下降的问题,提出了一种基于共享近邻相似度的聚类内部指标.首先,利用共享近邻相似度和k最近邻(kNN)方法,估计数据点的密度,构建融合密度的共享近邻相似度图.然后,根据融合密度的共享近邻相似度图,利用最大流算法,计算出类内相似度和类间分离度,并结合两者计算出聚类内部指标.通过对人工数据集和真实数据集的测试表明,与9个基于距离的传统聚类内部指标相比,该指标能更准确评估数据集的最佳划分和预测数据集的最佳类数.因此,该指标处理复杂类结构和高维数据的能力优于所对比的其他聚类内部指标.  相似文献   

6.
基于聚类排序选择方法的进化算法   总被引:4,自引:0,他引:4  
为提高进化算法的效率,提出了聚类排序选择方法。主要工作有:(1)提出了新的种群内个体相似度度量,并使用种群所包含不同簇的数量来描述和度量种群的多样性;(2)为解决早熟问题提出了新的基于种群聚类和排序选择的聚类-排序选择方法;(3)导出了选择压力-种群多样性(SP-PD)方程,该方程能描述进化过程中选择压力随种群多样性变化的规律。在基于全面学习粒子群算法环境中作了详实的实验,对16个多峰函数进行了优化。实验结果表明,在10维和30维条件下,在15个函数优化中,新方法明显优于指数排序选择方法,最高能使精度提高4个数量级。  相似文献   

7.
面向混合属性数据集的改进半监督FCM聚类方法   总被引:1,自引:0,他引:1  
李晓庆  唐昊  司加胜  苗刚中 《自动化学报》2018,44(12):2259-2268
针对混合属性数据集聚类精度低的问题,本文提出一种基于改进距离度量的半监督模糊均值聚类(Fuzzy C-means,FCM)算法.首先,在数据集中针对类别属性进行预处理,并设置相应的相异度阈值;将传统聚类距离度量与改进的Jaccard距离度量结合,确定混合属性数据集的距离度量函数;最后,将所得距离度量函数与传统半监督FCM算法相结合,并在滚动轴承的不同复合故障数据的特征集中进行聚类.实验表明,该算法能在含无序属性的混合属性数据集的聚类中取得更好的聚类效果.  相似文献   

8.
针对经典快速非支配排序遗传算法(NSGA-Ⅱ)中基于拥挤距离的种群多样性保持策略不能客观反映个体间真实拥挤程度的问题,提出了一种基于自适应混合非支配个体排序策略的改进型NSGA-Ⅱ算法(NSGA-Ⅱh)。首先,设计一种新的循环聚类个体排序策略;然后,根据Pareto分层信息来对基于经典拥挤距离和循环聚类的两种个体排序策略进行自适应的选择;最终,实现对进化后期的种群多样性保持机制的改进。通过5个标准测试函数进行算法验证,并与经典的NSGA-Ⅱ、多目标粒子群优化算法(MOPSO)和GDE3等算法进行对比分析,NSGA-Ⅱh算法获得了80%的最优反向世代距离(IGD)值,且显著性水平为5%的双尾t检验结果表明,新算法具有明显统计意义上的性能优势。改进算法不仅能提高进化种群的分布性,而且能增强算法的收敛性,有效提高了优化效果。  相似文献   

9.
为了防止数据敏感属性的泄露,需要对数据敏感属性进行匿名保护。针对l-多样性模型当前已提出的算法大多是建立在概念层次结构的基础上,该方法会导致不必要的信息损失。为此,将基于属性泛化层次距离KACA算法中的距离度量方法与聚类结合,提出了一种基于聚类的数据敏感属性匿名保护算法。该算法按照l-多样性模型的要求对数据集进行聚类。实验结果表明,该算法既能对数据中的敏感属性值进行匿名保护,又能降低信息的损失程度。  相似文献   

10.
提出一种融合化学反应优化与K均值的文本聚类算法.结合K均值聚类的局部快速开发寻优能力和化学反应优化的全局勘探能力,以K均值聚类解集合作为化学反应优化的初始分子结构群,通过引入单分子碰撞、单分子分解、分子间碰撞和分子间合成4种化学反应操作,增加种群分子多样性;利用融合余弦相似度和欧氏距离的适应度函数评估分子优劣,在扩展搜索空间的基础上求解最优文本聚类.聚类测试结果表明,在多数数据集上,算法在适应度、准确率、精确率、召回率和F度量等指标上均表现更好.  相似文献   

11.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

12.
经典竞争聚集( CA)算法在聚类时对于样本中的少量已知信息没有加以利用,但这些信息往往需要应用到整个聚类过程中。此外,在相似度度量函数的选择上CA算法使用常见的欧氏距离,然而欧氏距离仅适用于团状数据,制约了算法的应用范围。针对上述问题,通过引入具备半监督学习能力的半监督项对隶属度矩阵进行增强,利用聚类中心和中心邻近的点组成空间,把样本点与该空间的距离替代欧氏距离作为新的相似度度量标准,并给出判断聚类中心能否合并的阈值参数,最终得到半监督空间化CA算法。通过在人造图像和真实图像上的分割结果表明,该算法能够更准确地获取聚类类别数以及更好的聚类效果。  相似文献   

13.
丁世飞  徐晓  王艳茹 《软件学报》2020,31(11):3321-3333
密度峰值聚类(clustering by fast search and find of density peaks,简称DPC)是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心,不需要提前指定类簇数,并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都只是简单依赖基于距离度量的相似度矩阵,所以在复杂数据上DPC聚类结果不尽如人意,特别是当数据分布不均匀、数据维度较高时.另外,DPC算法中局部密度的计算没有统一的度量,根据不同的数据集需要选择不同的度量方式.第三,截断距离dc的度量只考虑数据的全局分布,忽略了数据的局部信息,所以dc的改变会影响聚类的结果,尤其是在小样本数据集上.针对这些弊端,提出一种基于不相似性度量优化的密度峰值聚类算法(optimized density peaks clustering algorithm based on dissimilarity measure,简称DDPC),引入基于块的不相似性度量方法计算相似度矩阵,并基于新的相似度矩阵计算样本的K近邻信息,然后基于样本的K近邻信息重新定义局部密度的度量方法.经典数据集的实验结果表明,基于不相似性度量优化的密度峰值聚类算法优于DPC的优化算法FKNN-DPC和DPC-KNN,可以在密度不均匀以及维度较高的数据集上得到满意的结果;同时统一了局部密度的度量方式,避免了传统DPC算法中截断距离dc对聚类结果的影响.  相似文献   

14.
针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感.  相似文献   

15.
设计了一种对基于XML描述的软件构件进行聚类的算法(即基于模拟退火的构件聚类算法),该算法通过模拟金属退火基本原理对构件库中的软件构件聚类进行全局优化.构件聚类时,根据一般意义的树间编辑距离,提出一种用于判断基于XML描述的构件间是否相似的度量测度(称为XML编辑距离).利用XML编辑距离,可将构件间相似性度量的时间复杂度限制在多项式级,且能保持构件的XML描述文档的节点语义信息和节点间的祖孙嵌套关系.最后,在构件库测试模型上进行实验,结果证实了基于模拟退火的构件聚类算法在构件查询实践中的可行性和有效性.  相似文献   

16.
一种基于动态近邻选择模型的聚类算法   总被引:4,自引:0,他引:4  
金阳  左万利 《计算机学报》2007,30(5):756-762
ROCK是Sudipno Guha等1999年提出的一个著名的面向分类属性数据的聚类算法,其突出贡献是采用公共近邻(链接)数的全局信息作为评价数据点间相关性的度量标准,而不是传统的基于两点间距离的局部度量函数.尽管ROCK在Mushroom等分类属性数据集上取得了很好的聚类结果,但该算法本身也存在一些缺陷和不足.首先,衡量两个数据点是否为邻居的相似度阈值θ需要预先静态指定,该阈值对聚类质量影响很大,在对数据集没有充分了解的前提下给出恰当的阈值是困难的.其次,在ROCK算法中,相似度函数sim仅被用于最初邻居的判断上,只考虑相似与否,而未考虑相似程度,使算法对θ值过于敏感.另外,ROCK还要求用户事先选定聚类簇数k.这些缺陷或者影响聚类效果,或使算法不便使用.该文深入分析了上述问题,并提出基于动态近邻选择模型的聚类算法DNNS,通过优选近邻来提高聚类质量.文中还定义了内聚度度量函数以指导聚类过程.对标准数据集VOTE和ZOO的实验结果表明,DNNS算法的fα指标优于ROCK和VBACC.  相似文献   

17.
混合流水车间调度问题HFSP是一种具有很强应用背景的生产调度问题。本文给出了一种HFSP多目标调度模型,提出了一种针对该类问题的多目标粒子群算法。该算法采用基于Pareto支配关系的极值更新策略;采取对自适应惯性权重递减和对种群变异的方法以保持种群多样性;设置Pareto解池保存计算中出现的Pareto最优解,并提出了一种基于适应度拥挤度的聚类算法优化解的分布特性。实验结果表明,本文算法是求解HFSP问题的一种有效方法。  相似文献   

18.
基于分类权与质心驱动的无监督学习算法   总被引:1,自引:0,他引:1  
为了充分挖掘隐藏在样本向量中的空间信息和知识信息: 用聚类点代替类均值, 把提取指标对聚类所做贡献的量化值定义为指标分类权; 用分类权定义样本点与聚类点的加权距离, 使之作为样本与类之间的相似性度量更具合理性, 即将加权距离转化为样本隶属度. 为了消除序贯算法产生的随机性, 用样本的K类隶属度作为点质量的样本质点组的质心, 修正当前的K类聚类点, 由此建立基于分类权和质心驱动的搜索聚类点的迭代算法. IRIS数据检验结果表明, 新算法的聚类效果与稳定性都优于已有的无监督学习方法.  相似文献   

19.
针对现有的区块链共识算法存在决策不均衡、适用性过小和产生共识困难等问题,根据纳什均衡理论,将区块链节点视为博弈的参与者,在共识过程中将节点策略选择的纳什均衡作为共识目标,提出基于纳什均衡的共识算法.在纳什均衡求解中利用聚类算法对同类型节点聚类,用基于拥挤距离和引力搜索算法改进的粒子群优化算法求解以类为基本种群的纳什均衡近似解,将均衡解下所对应的结果作为主节点.设计面向组合投资区块链系统求解共识机制的实验,分别从算法的安全性和扩展性验证该算法的有效性.  相似文献   

20.
针对K-调和均值算法中距离度量将所有属性视为相等重要而存在的不足,提出一种利用自动属性加权的改进聚类算法。在算法的目标函数中,用加权欧氏距离替代传统的欧氏距离,并证明了使得算法能够收敛的属性权重更新机制。为进一步提高聚类性能,将粒子群算法融入到改进的属性加权聚类算法中以抑制其陷于局部最优,其中采用聚类中心和属性权重的值同时表示粒子的位置进行寻优。在UCI数据集的测试结果表明,该算法的聚类指标平均提高了约9个百分点,具有更高的聚类准确性和稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号