首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
唐东明  朱清新  杨凡  陈科 《软件学报》2011,22(8):1827-1837
提出了一种有效的基于仿射传播聚类算法和后处理方法的蛋白质序列聚类方法.在聚类分析蛋白质序列时,为了优化仿射传播聚类算法的聚类结果,采用后处理的方式来提高聚类结果的质量.为了度量蛋白质序列之间的相似度,给出了一种改进的无比对计算方法.在6个蛋白质序列数据集上进行对比实验,实验结果表明,所给出的方法能够有效地分析蛋白质序列.  相似文献   

2.
仿射传播算法是一种快速有效的聚类方法,但其聚类结果的不稳定性影响了聚类性能。对此,提出基于近邻的仿射传播算法(AP-NN),通过仿射传播算法产生初始簇,并从中选择代表簇对非代表簇的样本进行近邻聚类。在时间序列数据集上的实验结果表明,AP-NN模型算法能够产生较好的聚类结果,适用于聚类分析。  相似文献   

3.
张亮  杜子平  张俊  李杨 《计算机工程》2011,37(9):216-217,220
仿射传播方法难以处理具有流形结构的数据集。为此,提出一种基于拉普拉斯特征映射的仿射传播聚类算法(APPLE),在标准仿射传播的基础上增强流形学习的能力。使用测地距离计算数据点间相似度,采用拉普拉斯特征映射对数据集进行降维及特征提取。对图像聚类应用的实验结果证明了APPLE的聚类效果优于标准仿射传播方法。  相似文献   

4.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4       下载免费PDF全文
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

5.
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。  相似文献   

6.
赵健  唐洁  谢瑜 《计算机应用研究》2012,29(10):3980-3982
近年来,基于划分的聚类算法被广泛应用于数据和图像聚类中。针对应用最为广泛的k-均值算法在图像聚类中存在的聚类速度慢、效果差等问题,提出一种仿射传播算法应用于图像聚类中。提取图像中颜色、形状和纹理等特征向量,利用仿射传播算法对综合特征向量模型进行聚类,最后将仿射传播算法和k-均值算法对MIT图像的聚类作了对比分析。仿真实验表明,仿射传播算法在速度和聚类效果上均优于已有的k-均值算法,在准确性和实时性方面均能达到较好的效果。  相似文献   

7.
仿射传播聚类是一种快速有效的聚类方法。但对高维数据进行聚类时,由于数据信息的重叠,聚类结果往往会有较大误差。针对这个问题,提出了把主元分析(PCA)和仿射传播(AP)聚类相结合的PCA-AP算法,在保留原变量绝大部分信息的情况下对数据进行降维处理,然后在低维空间中用仿射传播聚类的方法进行聚类。由于剔除了冗余信息,算法得到的分类结果更加准确。实验结果表明该算法是有效的。  相似文献   

8.
自适应仿射传播聚类   总被引:42,自引:4,他引:42  
王开军  张军英  李丹  张新娜  郭涛 《自动化学报》2007,33(12):1242-1246
适合处理大类数的仿射传播聚类有两个尚未解决的问题: 一是很难确定偏向参数取何值能够使算法产生最优的聚类结果; 另一个是当震荡发生后算法不能自动消除震荡并收敛. 为了解决这两个问题, 提出了自适应仿射传播聚类方法, 具体技术包括: 自适应扫描偏向参数空间来搜索聚类个数空间以寻找最优聚类结果、自适应调整阻尼因子来消除震荡以及当调整阻尼因子方法失效时的自适应逃离震荡技术. 与原算法相比, 自适应仿射传播聚类方法性能更优, 能够自动消除震荡和寻找最优聚类结果. 对模拟和真实数据集的实验结果表明, 自适应仿射传播聚类方法十分有效, 其聚类质量优于或不低于原算法.  相似文献   

9.
基于信息理论的合作聚类算法研究   总被引:8,自引:0,他引:8  
传统的聚类算法是针对一个独立数据集的学习分类算法,如FCM(Fuzzy-C-Means)聚类算法.在现实生活中,一个数据集独立于其它数据集,而往往通过与别的数据集交换信息与之相互合作.因此在聚类过程中,需要考虑来自其它数据集的影响,从而得到更能反映现实的数据结构.该文提出了一种基于信息理论的信息增益方法来建模并定量分析多个数据集间的合作关系,在此基础上,导出了相应的新合作聚类算法CCA(Cooperative C1ustering Algorithm).理论分析表明该算法最终收敛,实验结果也进一步表明了该合作聚类算法的可行性与有效性.  相似文献   

10.
提出了基于Levenberg-Marquardt(LM)算法的BP神经网络对蛋白质序列进行家族分类的新方法.该方法采用二肽含量对蛋白质序列进行特征提取,根据影响因子评价特征的相对重要性,用改进的BP神经网络LM优化算法构造一个三层人工神经网络,通过对PIR数据库中三类家族的学习,该网络对未知蛋白质序列分类的准确率分别达到了98.9%.98.1%,97.8%。  相似文献   

11.
在现有的自适应蚂蚁聚类算法中,自适应参数的调整往往凭经验取值,从而影响聚类质量。针对该问题,提出一种利用快速模拟退火算法实现蚂蚁聚类自适应参数动态调整的改进方法。基于该算法构建的入侵检测系统无需预先指定簇的数目,也不要求满足正常行为的数目远大于入侵行为的数目等条件。对KDD CUP1999数据集的仿真实验结果表明,该算法可以得到较理想的聚类,对未知入侵有较好的检测效果。  相似文献   

12.
徐沁  罗斌 《计算机工程》2013,(12):204-210
针对初始点选择不当导致K—means陷入局部最小值问题,提出一种结合自适应mean-shift与最小生成树(MST)的K—means聚类算法。将数据对象投影到主成分分析(PCA)子空间,给出自适应mean.shift算法,并在PCA子空间内将数据向密度大的区域聚集,再利用MST与图连通分量算法,找出数据的类别数和类标签,据此计算原始空间的密度峰值,并将其作为K.means聚类的初始中心点。对K—means的目标函数、聚类精度和运行时间进行比较,结果表明,该算法在较短的运行时间内能给出较优的全局解。  相似文献   

13.
针对大数据环境下传统并行密度聚类算法中存在的数据划分不合理,聚类结果准确度不高,结果受参数影响较大以及并行效率低等问题,提出一种MapReduce下使用均值距离与关联性标记的并行OPTICS算法——POMDRM-MR。算法使用一种基于维度稀疏度的减少边界点划分策略(DS-PRBP),划分数据集;针对各个分区,提出标记点排序识别簇算法(MOPTICS),构建数据点与核心点之间的关联性,并标记数据点迭代次数,在距离度量中,使用领域均值距离策略(FMD),计算数据点的领域均值距离,代替可达距离排序,输出关联性标记序列;最后结合重排序序列提取簇算法(REC),对输出序列进行二次排序并提取簇,提高算法局部聚类的准确性和稳定性;在合并全局簇时,算法提出边界密度筛选策略(BD-FLC),计算筛选密度相近局部簇;又基于n叉树的并集型合并与MapReduce模型,提出并行局部簇合并算法(MCNT-MR),加快局部簇收敛,并行合并局部簇,提升全局簇合并效率。对照实验表明,POMDRM-MR算法聚类效果更佳,且在大规模数据集下算法的并行化性能更好。  相似文献   

14.
介绍了自组织特征映射(SOFM)算法及大规模应用聚类(CLARA)算法的基本思想,提出了一种首先利用SOFM算法对数据集进行粗聚类,确定簇的数目k和神经元的连接权向量,然后从数据集中找出与SOFM算法的神经元的连接权向量最相似的k个代表点作为CLARA算法的k个代表点的初始值的改进CLARA算法。实验结果表明,改进算法具有更高的聚类效率和更好的聚类质量。  相似文献   

15.
针对低秩表示(LRR)子空间聚类算法没有考虑数据局部结构,在学习中可能会造成局部相似信息丢失的问题,提出了一种基于Hessian正则化和非负约束的低秩表示子空间聚类算法(LRR-HN),用来探索数据的全局结构和局部结构。首先,利用Hessian正则化良好的推测能力来保持数据的局部流形结构,使数据局部拓扑结构的表达能力更强;其次,考虑到获得的系数矩阵往往有正有负,而负值往往没有实际意义的特点,引入非负约束来保证模型解的有效性,使其在数据局部结构描述上更有意义;最后,通过最小化核范数寻求数据全局结构的低秩表示,从而更好地聚类高维数据。此外,利用自适应惩罚的线性交替方向法设计了一种求解LRR-HN的有效算法,并在一些真实数据集上,采用正确率(AC)和归一化互信息(NMI)对所提出的算法进行了评估。在ORL数据集上聚类数目为20时的实验中,LRR-HN与LRR算法相比,AC和NMI分别提高了11%和9.74%;与自适应低秩表示(ALRR)算法相比,AC和NMI分别提高了5%和1.05%。实验结果表明,LRR-HN与现有的一些算法相比,AC和NMI均有较大的提升,有较好的聚类性能。  相似文献   

16.
提出了一种改进的核可能性C-均值聚类算法,它是对PCM聚类模型的推广。通过限制PCM聚类模型中解的可行域,利用全局优化技术(以模拟退火(SA)为例)来求解,使其保持了PCM对噪声鲁棒的优点,又避免了重合聚类的产生,且能较好地找到问题的全局最优解,减少了全局优化方法的搜索范围,加快了收敛速度。  相似文献   

17.
近邻传播算法在非凸形、密度不均匀的数据集上很难得到理想的聚类结果。为此,基于核聚类的思想,将数据集非线性地映射到高维空间,使数据集更加分离。利用共享最近邻的相似度度量方法,提出一种密度不敏感的近邻传播算法DIS-AP,以弥补原算法易受特征集维数和密度影响的缺点,从而有效解决数据集非凸和密度不均匀问题,拓宽算法的应用范围。仿真实验结果证明,DIS-AP算法具有更好的聚类性能。  相似文献   

18.
杂波环境下,利用概率假设密度滤波器进行扩展目标跟踪存在量测集划分难且计算效率低的问题,提出基于层次划分密度的聚类优化(CODHD)算法对扩展目标进行量测集划分的方法。先利用自适应椭球门限的方法对量测集进行预处理,通过簇合并方式生成量测划分;计算各划分聚类质量并构造为质量曲线;将得到的聚类数和聚类中心通过模糊C-均值(FCM)运算获得量测划分。仿真结果表明,利用所提方法对量测集进行划分,能够得到准确的划分结果且计算代价得到降低。  相似文献   

19.
自适应仿射传播聚类作为一种新兴的聚类算法,不需要指定初始类心以及类数,对解决聚类中类数不确定性问题非常有效.然而,自适应仿射传播聚类存在时间消耗过大的问题,当样本数量较大时运行速度缓慢.为了提高自适应仿射传播聚类的运行速度,基于NVIDIA公司的统一计算设备架构(Compute Unified Device Architecture,CUDA)和Matlab并行工具箱,提出了一种自适应仿射传播聚类的并行化方法.实验结果表明,基于GPU并行化的自适应仿射传播聚类在运行速度上有了明显提高,与该算法的串行执行方式相比,运行速度提升2倍以上,并且随着样本数量的增长,加速性能越来越好.  相似文献   

20.
提出了一种基于图正则化的半监督非负矩阵分解算法(GSNMF),克服了非负矩阵分解(NMF)、约束非负矩阵分解(CNMF)和图正则化非负矩阵分解(GNMF)方法忽略样本数据的局部几何结构或标签信息不足的缺陷,且NMF、CNMF和GNMF均为GSNMF的特例。也从理论上证明了GSNMF算法的收敛性。该算法对样本数据进行低维非负分解时,在图框架下既保持数据的几何结构,又利用已知样本的标签信息,在进行半监督学习时,同类样本能更好地聚集而类间距离尽可能大。在人脸数据库ORL、FERET和手写体数据库USPS上的仿真结果表明,相对于NMF及其一些改进算法,GSNMF均具有更高的聚类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号