共查询到19条相似文献,搜索用时 78 毫秒
1.
相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义. 相似文献
2.
基于仿射传播聚类和高斯过程的多模型建模方法 总被引:3,自引:0,他引:3
针对单模型建模存在泛化能力差的问题,提出一种基于仿射传播聚类和高斯过程的多模型建模方法。该方法定义了一种新的相似度使仿射传播聚类算法把样本数据按照不同的工作点进行聚类,获得的子聚类样本数据再分别使用高斯过程建立相应的子模型,用"切换开关"方式组合作为最终模型的输出。将该建模方法应用到某双酚A反应釜出口丙酮含量的软测量建模中,仿真结果表明该方法具有较高的估计精度和一定的实用价值。 相似文献
3.
《计算机科学与探索》2016,(2):268-276
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。 相似文献
4.
5.
基于Hadoop的仿射传播大数据聚类分析方法 总被引:1,自引:0,他引:1
唐东明 《计算机工程与应用》2015,51(4):29-34
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/HelloWorldCN/MapReduceAPC上下载。 相似文献
6.
鉴于现有算法缺乏从时序演化角度解决不确定数据流聚类问题,提出基于近邻传播的不确定数据流演化聚类算法。考虑不确定数据流在线形成微簇时的变化因素对离线聚类的影响,提出不确定微簇变化率的概念。从不确定数据流演化的角度衡量微簇之间的相似程度,提出不确定微簇关联度的概念,并以此为基础构造不确定相似度矩阵,结合近邻传播思想实现不确定数据流演化聚类。通过实验证明文中算法的有效性和良好的聚类效果。 相似文献
7.
极大熵聚类(MEC)目标函数中缺乏成对约束的有效信息表达,在拥有少量成对约束的情况下,可能导致有效监督信息的浪费.在MEC的基础上,文中提出基于成对约束的交叉熵半监督聚类算法.利用样本交叉熵表达成对约束信息,并作为惩罚项引入至MEC的目标函数中,通过拉格朗日最优化处理目标函数,得出聚类中心与隶属度的迭代公式.实验表明,文中算法能有效利用少量的成对约束监督信息提高聚类性能,在实际数据应用中性能较好 相似文献
8.
ART-2是一种基于自适应谐振理论的自组织神经网络,广泛应用于模式聚类与识别等方面.本文介绍原始的ART-2的结构和运算过程,分析它的训练算法,探讨其固有局限性.归纳总结各主要改进ART-2的背景、目标和实现,评述它们的特征及适应场合.最后指出进一步改进ART-2的一些思路,在解决具体问题运用各方法的一些参考原则和ART-2的理论应用价值. 相似文献
9.
10.
传统模糊聚类算法在处理复杂非线性数据时学习能力较差。针对此问题,文中基于极限学习机(ELM)理论,结合局部保留投影(LPP)与ELM特征映射,提出压缩隐空间特征映射算法,从而将原始数据从原空间映射至压缩ELM隐空间中。通过连接多个压缩隐空间特征映射,结合模糊聚类技术,提出基于LPP的堆叠隐空间模糊C均值算法。大量实验表明,文中算法对模糊指数的变化不敏感,在处理复杂非线性数据和存在类内差异的图像数据时,能够取得更精确、高效、稳定的学习效果。 相似文献
11.
12.
13.
近邻传播(Affinity Propagation,AP)聚类具有不需要设定聚类个数、快速准确的优点,但无法适应于大规模数据的应用需求。针对此问题,提出了分层近邻传播聚类算法。首先,将待聚类数据集划分为若干适合AP算法高效执行的子集,分别推举出各个子集的聚类中心;然后对所有子集聚类中心再次执行AP聚类,推举出整个数据集的全局聚类中心;最后根据与这些全局聚类中心的相似度对聚类样本进行划分,从而实现对大规模数据的高效聚类。在真实和模拟数据集上的实验结果均表明,与AP聚类和自适应AP聚类相比,该方法在保证较好聚类效果的同时,极大地降低了聚类的时间消耗。 相似文献
14.
15.
近年来符号数据的无监督学习在模式识别、机器学习、数据挖掘和知识发现等诸多领域扮演着越来越重要的角色。然而现有的针对符号数据的聚类算法(经典的K-modes系列算法等),相比数值型数据的聚类算法,在性能方面仍然有很大的提升空间。其根本原因在于符号数据缺乏类似数值数据那样清晰的空间结构。为了能够有效地发掘符号数据内在的空间结构,采用了一种全新的数据表示方案:空间变换方法。该方法将符号数据映射到相应的由原来的属性组成的新的 维度的欧氏空间中。在这一框架的基础上,为了找到符号数据更有代表性的模式,结合Carreira-Perpin提出的K-modes算法进行无监督学习。在9个常用的UCI符号数据集上进行了测试,与传统的符号数据聚类算法进行了实验比较,结果表明几乎在所有的数据集上提出的方法都是更加有效的。 相似文献
16.
针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离度量测度,并将其应用到近邻传播聚类算法中,提出了一种基于维度属性距离的混合属性近邻传播聚类算法。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对聚类结果的影响。将算法在UCI数据库的2个混合属性数据集上进行验证,同时对比了经典的K-Prototypes算法以及K-Modes算法。实验结果表明,改进后的算法具有更好的聚类质量以及执行效率,算法的优越性得到了验证。 相似文献
17.
面向分类数据的自组织神经网络 总被引:1,自引:2,他引:1
作为一种优良的聚类和降维工具,自组织神经网络SOM(SelfOrganizingFeatureMaps)已经得到广泛应用。其不足之处是仅适合于数值数据,这对时常需要处理分类型数据(Categoricalvalueddata)或数值型与分类型混合数据(Mixednumericandcategoricalvalueddata)的数据挖掘应用是不够的。该文提出了一种新的基于覆盖(Overlap)的距离函数并将其用于SOM训练。实验结果表明,在不增加时空开销的前提下可取得较好的聚类效果。 相似文献
18.