首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.  相似文献   

2.
基于仿射传播聚类和高斯过程的多模型建模方法   总被引:3,自引:0,他引:3  
针对单模型建模存在泛化能力差的问题,提出一种基于仿射传播聚类和高斯过程的多模型建模方法。该方法定义了一种新的相似度使仿射传播聚类算法把样本数据按照不同的工作点进行聚类,获得的子聚类样本数据再分别使用高斯过程建立相应的子模型,用"切换开关"方式组合作为最终模型的输出。将该建模方法应用到某双酚A反应釜出口丙酮含量的软测量建模中,仿真结果表明该方法具有较高的估计精度和一定的实用价值。  相似文献   

3.
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。  相似文献   

4.
赵健  唐洁  谢瑜 《计算机应用研究》2012,29(10):3980-3982
近年来,基于划分的聚类算法被广泛应用于数据和图像聚类中。针对应用最为广泛的k-均值算法在图像聚类中存在的聚类速度慢、效果差等问题,提出一种仿射传播算法应用于图像聚类中。提取图像中颜色、形状和纹理等特征向量,利用仿射传播算法对综合特征向量模型进行聚类,最后将仿射传播算法和k-均值算法对MIT图像的聚类作了对比分析。仿真实验表明,仿射传播算法在速度和聚类效果上均优于已有的k-均值算法,在准确性和实时性方面均能达到较好的效果。  相似文献   

5.
基于Hadoop的仿射传播大数据聚类分析方法   总被引:1,自引:0,他引:1  
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/HelloWorldCN/MapReduceAPC上下载。  相似文献   

6.
鉴于现有算法缺乏从时序演化角度解决不确定数据流聚类问题,提出基于近邻传播的不确定数据流演化聚类算法。考虑不确定数据流在线形成微簇时的变化因素对离线聚类的影响,提出不确定微簇变化率的概念。从不确定数据流演化的角度衡量微簇之间的相似程度,提出不确定微簇关联度的概念,并以此为基础构造不确定相似度矩阵,结合近邻传播思想实现不确定数据流演化聚类。通过实验证明文中算法的有效性和良好的聚类效果。  相似文献   

7.
极大熵聚类(MEC)目标函数中缺乏成对约束的有效信息表达,在拥有少量成对约束的情况下,可能导致有效监督信息的浪费.在MEC的基础上,文中提出基于成对约束的交叉熵半监督聚类算法.利用样本交叉熵表达成对约束信息,并作为惩罚项引入至MEC的目标函数中,通过拉格朗日最优化处理目标函数,得出聚类中心与隶属度的迭代公式.实验表明,文中算法能有效利用少量的成对约束监督信息提高聚类性能,在实际数据应用中性能较好  相似文献   

8.
ART-2是一种基于自适应谐振理论的自组织神经网络,广泛应用于模式聚类与识别等方面.本文介绍原始的ART-2的结构和运算过程,分析它的训练算法,探讨其固有局限性.归纳总结各主要改进ART-2的背景、目标和实现,评述它们的特征及适应场合.最后指出进一步改进ART-2的一些思路,在解决具体问题运用各方法的一些参考原则和ART-2的理论应用价值.  相似文献   

9.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4       下载免费PDF全文
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

10.
传统模糊聚类算法在处理复杂非线性数据时学习能力较差。针对此问题,文中基于极限学习机(ELM)理论,结合局部保留投影(LPP)与ELM特征映射,提出压缩隐空间特征映射算法,从而将原始数据从原空间映射至压缩ELM隐空间中。通过连接多个压缩隐空间特征映射,结合模糊聚类技术,提出基于LPP的堆叠隐空间模糊C均值算法。大量实验表明,文中算法对模糊指数的变化不敏感,在处理复杂非线性数据和存在类内差异的图像数据时,能够取得更精确、高效、稳定的学习效果。  相似文献   

11.
针对近邻传播聚类(AP)中偏向参数和阻尼因子设定导致聚类效果有一定局限性的问题,提出了一种基于教与学优化算法(TLBO)的近邻传播聚类.首先确定偏向参数p的搜索空间,然后使用教与学优化算法在搜索空间中寻找最优参数值,同时在聚类过程中自适应调整阻尼因子防止发生震荡,从而提高AP算法的聚类质量.实验表明,该算法能有效的解决偏向参数和阻尼因子对聚类结果造成的局限性,提高了聚类的轮廓系数,并降低了聚类错误率.  相似文献   

12.
数据标签是一种提高增量数据聚类效率的简单而有效的方法.数据标签就是分配每个新增数据点到与之最相似的簇的过程.符号数据分析的难点之一在于缺少一种恰当的方法来定义数据点与数据簇之间的相似性.为此,将簇代表定义为簇中所有属性的属性值及其在簇中的频率构成的列表,用信息熵的变化来定义“点-簇”不相似性.基于此不相似性度量,设计了一个符号型增量数据标签算法来分配无标记数据到恰当的簇.在公开数据集和文本语料上的对比实验表明,该数据标签算法不但数据标记精度高、时间开销小,而且有较好的可伸缩性.  相似文献   

13.
近邻传播(Affinity Propagation,AP)聚类具有不需要设定聚类个数、快速准确的优点,但无法适应于大规模数据的应用需求。针对此问题,提出了分层近邻传播聚类算法。首先,将待聚类数据集划分为若干适合AP算法高效执行的子集,分别推举出各个子集的聚类中心;然后对所有子集聚类中心再次执行AP聚类,推举出整个数据集的全局聚类中心;最后根据与这些全局聚类中心的相似度对聚类样本进行划分,从而实现对大规模数据的高效聚类。在真实和模拟数据集上的实验结果均表明,与AP聚类和自适应AP聚类相比,该方法在保证较好聚类效果的同时,极大地降低了聚类的时间消耗。  相似文献   

14.
基于亲和传递聚类的多类物体识别方法   总被引:1,自引:1,他引:0       下载免费PDF全文
代松  李伟生 《计算机工程》2009,35(14):206-208
多类物体识别在提取特征之后,样本的数量会呈指数倍增加,为减少计算量同时,不降低识别率,采用亲和传递算法对样本数据进行聚类形成视觉字典,帮助并提升物体识别效率。在Sowerby图像数据库上进行实验证明,该方法与使用k均值聚类建立视觉字典方法相比,在同等条件下具有更高的识别率。  相似文献   

15.
王建新  钱宇华 《计算机科学》2016,43(1):89-93, 121
近年来符号数据的无监督学习在模式识别、机器学习、数据挖掘和知识发现等诸多领域扮演着越来越重要的角色。然而现有的针对符号数据的聚类算法(经典的K-modes系列算法等),相比数值型数据的聚类算法,在性能方面仍然有很大的提升空间。其根本原因在于符号数据缺乏类似数值数据那样清晰的空间结构。为了能够有效地发掘符号数据内在的空间结构,采用了一种全新的数据表示方案:空间变换方法。该方法将符号数据映射到相应的由原来的属性组成的新的 维度的欧氏空间中。在这一框架的基础上,为了找到符号数据更有代表性的模式,结合Carreira-Perpin提出的K-modes算法进行无监督学习。在9个常用的UCI符号数据集上进行了测试,与传统的符号数据聚类算法进行了实验比较,结果表明几乎在所有的数据集上提出的方法都是更加有效的。  相似文献   

16.
黄德才  钱潮恺 《计算机科学》2015,42(Z11):55-57, 71
针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离度量测度,并将其应用到近邻传播聚类算法中,提出了一种基于维度属性距离的混合属性近邻传播聚类算法。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对聚类结果的影响。将算法在UCI数据库的2个混合属性数据集上进行验证,同时对比了经典的K-Prototypes算法以及K-Modes算法。实验结果表明,改进后的算法具有更好的聚类质量以及执行效率,算法的优越性得到了验证。  相似文献   

17.
面向分类数据的自组织神经网络   总被引:1,自引:2,他引:1  
作为一种优良的聚类和降维工具,自组织神经网络SOM(SelfOrganizingFeatureMaps)已经得到广泛应用。其不足之处是仅适合于数值数据,这对时常需要处理分类型数据(Categoricalvalueddata)或数值型与分类型混合数据(Mixednumericandcategoricalvalueddata)的数据挖掘应用是不够的。该文提出了一种新的基于覆盖(Overlap)的距离函数并将其用于SOM训练。实验结果表明,在不增加时空开销的前提下可取得较好的聚类效果。  相似文献   

18.
对GIS中所涉及的各要素进行抽象,并给出其存储结构,在此基础上提出了整体GIS空间数据与属性数据的存储结构,包括逻辑存储结构和物理存储结构。采用层次模型和关系模型相结合的记录式文件系统来对空间数据和属性数据进行存取,并结合索引和数据字典技术加快了数据的存取速度,解决了传统GIS中空间数据和属性数据分开存储带来的问题,提高了大数据量的GIS应用的存取效率。  相似文献   

19.
近邻传播算法在非凸形、密度不均匀的数据集上很难得到理想的聚类结果。为此,基于核聚类的思想,将数据集非线性地映射到高维空间,使数据集更加分离。利用共享最近邻的相似度度量方法,提出一种密度不敏感的近邻传播算法DIS-AP,以弥补原算法易受特征集维数和密度影响的缺点,从而有效解决数据集非凸和密度不均匀问题,拓宽算法的应用范围。仿真实验结果证明,DIS-AP算法具有更好的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号