共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
通过学习数据集的低维流形结构,给出一种流形距离测度;结合成对约束信息,调整数据的相似度矩阵,将其作为近邻传播算法的输入,提出了基于流形距离的半监督近邻传播聚类算法(SAP-MD)。通过在UCI标准数据集上的仿真实验表明,SAP-MD算法相比于仅利用成对约束信息的聚类算法,在聚类性能上有很大提高。 相似文献
3.
基于密度与近邻传播的数据流聚类算法 总被引:1,自引:0,他引:1
针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引 入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更 符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模 型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工 数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果. 相似文献
4.
近邻传播聚类(AP)方法是近年来出现的一种广受关注的聚类方法,在处理多类、大规模数据集时,能够在较短的时间得到较理想的结果,因此与传统方法相比具有很大的优势。但是对于一些聚类结构复杂的数据集,往往不能得到很好的聚类结果。通过分析数据的聚类特性,设计了一种可以根据数据结构自动调整参数的核函数,数据集在其映射得到的核空间中线性可分或几乎线性可分,对该核空间中的数据集进行近邻传播聚类,有效提高了AP聚类的精确度和速度。算法有效性分析以及仿真实验验证了所提算法在处理大规模复杂结构数据集上的性能优于原始AP算法。 相似文献
5.
基于加权K近邻的密度峰值发现算法(FKNN-DPC)是一种简单、高效的聚类算法,能够自动发现簇中心,并采用加权K近邻的思想快速、准确地完成对非簇中心样本的分配,在各种规模、任意维度、任意形状的数据集上都能得到高质量的聚类结果,但其样本分配策略中的权重仅考虑了样本间的欧氏距离。文中提出了一种基于共享近邻的相似度度量方式,并以此相似度改进样本分配策略,使得样本的分配更符合真实的簇归属情况,从而提高聚类质量。在UCI真实数据集上进行实验,并将所提算法与K-means,DBSCAN,AP,DPC,FKNN-DPC等算法进行对比,验证了其有效性。 相似文献
6.
密度峰聚类是一种基于密度的高效聚类方法,但存在对全局参数dc敏感和需要人工干预决策图进行聚类中心选择的缺陷。针对上述问题,提出了一种基于共享近邻相似度的密度峰聚类算法。首先,该算法结合欧氏距离和共享近邻相似度进行样本局部密度的定义,避免了原始密度峰聚类算法中参数dc的设置;其次,优化聚类中心的选择过程,能够自适应地进行聚类中心的选择;最后,将样本分配至距其最近并拥有较高密度的样本所在的簇中。实验结果表明,在UCI数据集和模拟数据集上,该算法与原始的密度峰聚类算法相比,准确率、标准化互信息(NMI)和F-Measure指标分别平均提高约22.3%、35.7%和16.6%。该算法能有效地提高聚类的准确性和聚类结果的质量。 相似文献
7.
本文针对近邻传播聚类中存在的复杂度高问题,提出了局部敏感哈希的近邻传播聚类算法,根据局部敏感哈希先将相似数据哈希到同一桶中,在对每个桶中的数据进行聚类。实验结果表明,该算法降低了复杂度,提高了准确率。 相似文献
8.
9.
近邻传播(Affinity Propagation,AP)聚类具有不需要设定聚类个数、快速准确的优点,但无法适应于大规模数据的应用需求。针对此问题,提出了分层近邻传播聚类算法。首先,将待聚类数据集划分为若干适合AP算法高效执行的子集,分别推举出各个子集的聚类中心;然后对所有子集聚类中心再次执行AP聚类,推举出整个数据集的全局聚类中心;最后根据与这些全局聚类中心的相似度对聚类样本进行划分,从而实现对大规模数据的高效聚类。在真实和模拟数据集上的实验结果均表明,与AP聚类和自适应AP聚类相比,该方法在保证较好聚类效果的同时,极大地降低了聚类的时间消耗。 相似文献
10.
基于MapReduce的分布式近邻传播聚类算法 总被引:2,自引:0,他引:2
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间. 相似文献
11.
云纹是我国古代装饰纹样中独具魅力的瑰宝,卷云纹是其中重要的一支,不仅具有很高的艺术价值,对当代的艺术设计实践也有着深远的启示作用。因此,对其进行归类分析从而发现云纹图案中蕴含的艺术思想、造型手法,无论是对于文化艺术研究还是对于聚类算法研究都具有重要意义。针对云纹图案变化繁复、人工分类效率低下的问题,提出一种基于自适应阈值近邻关系传递的多子类中心近邻传播聚类算法(ANP-MEAP),结合形状上下文特征(SC)提取算法对云纹图案的自动分类进行了有益的尝试。实验显示了结合SC特征的ANP-MEAP算法进行云纹图案自动分类的可行性和优越性。本文提出的云纹图案聚类算法,对于其他传统艺术图案的聚类分析也具有很好的借鉴意义。 相似文献
12.
基于仿射传播聚类和高斯过程的多模型建模方法 总被引:3,自引:0,他引:3
针对单模型建模存在泛化能力差的问题,提出一种基于仿射传播聚类和高斯过程的多模型建模方法。该方法定义了一种新的相似度使仿射传播聚类算法把样本数据按照不同的工作点进行聚类,获得的子聚类样本数据再分别使用高斯过程建立相应的子模型,用"切换开关"方式组合作为最终模型的输出。将该建模方法应用到某双酚A反应釜出口丙酮含量的软测量建模中,仿真结果表明该方法具有较高的估计精度和一定的实用价值。 相似文献
13.
14.
提出了一种基于约束投影的近邻传播AP聚类算法。AP算法是在数据点相似度矩阵的基础上进行聚类的,很多传统的聚类方法都无法与其相媲美。但是,对于结构复杂的数据,AP算法往往得不到理想的结果。文中算法先对约束信息进行扩展,然后利用扩展的约束信息指导投影矩阵的获取,在低维空间中,利用约束信息对聚类结果进行修正。实验表明,文中算法与对比算法相比,时间性能更优,聚类效果更佳。 相似文献
15.
复杂网络中普遍存在着一定的社团结构,社团检测具有重要的理论意义和实际价值。为了提高复杂网络中社团检测的性能,提出了一种基于结构相似度仿射传播的社团检测算法。首先,选取结构相似度作为节点之间的相似性度量,并采用了一种优化的方法来计算复杂网络的相似度矩阵;其次,将计算得到的相似度矩阵作为输入,采用快速仿射传播(FAP)算法进行聚类;最后,得到最终的社团结构。实验结果表明,所提算法在LFR(Lancichinetti-Fortunato-Radicchi)模拟网络上的社团检测平均标准化互信息(NMI)值为65.1%,要高于标签传播算法(LPA)的45.3%以及CNM(Clauset-Newman-Moore)算法的49.8%;在真实网络上的社团检测平均模块度值为53.1%,要高于LPA算法的39.9%以及CNM算法的47.8%,具有更好的社团检测能力,能够发现更高质量的社团结构。 相似文献
16.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的. 相似文献
17.
近邻传播算法(Affinity Propagation)是一种具有较高准确度的聚类算法,但是其具有较高的时间复杂度,且无法有效聚类结构松散数据,针对这两个问题,提出了一种基于MapReduce的半监督近邻传播算法(MR-SAP)。算法首先利用MapReduce编程框架,在各个数据节点上运行AP算法,得到局部的聚类中心,以及代表每一个局部聚类中心成为全局聚类中心可能性的决策系数,然后综合局部聚类中心进行全局的AP聚类,其中初始参考度的选取依据输入的决策系数,最后通过引入IGP聚类评价指标比较聚类效果,引导算法向结果最优方向运行。实验结果表明该算法在处理不同大小、不同类型数据集时均具有良好的效率和扩展性,且具有较高的聚类精度。 相似文献