首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
唐东明  朱清新  杨凡  陈科 《软件学报》2011,22(8):1827-1837
提出了一种有效的基于仿射传播聚类算法和后处理方法的蛋白质序列聚类方法.在聚类分析蛋白质序列时,为了优化仿射传播聚类算法的聚类结果,采用后处理的方式来提高聚类结果的质量.为了度量蛋白质序列之间的相似度,给出了一种改进的无比对计算方法.在6个蛋白质序列数据集上进行对比实验,实验结果表明,所给出的方法能够有效地分析蛋白质序列.  相似文献   

2.
仿射传播算法是一种快速有效的聚类方法,但其聚类结果的不稳定性影响了聚类性能。对此,提出基于近邻的仿射传播算法(AP-NN),通过仿射传播算法产生初始簇,并从中选择代表簇对非代表簇的样本进行近邻聚类。在时间序列数据集上的实验结果表明,AP-NN模型算法能够产生较好的聚类结果,适用于聚类分析。  相似文献   

3.
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。  相似文献   

4.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4       下载免费PDF全文
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

5.
自适应仿射传播聚类   总被引:42,自引:4,他引:42  
王开军  张军英  李丹  张新娜  郭涛 《自动化学报》2007,33(12):1242-1246
适合处理大类数的仿射传播聚类有两个尚未解决的问题: 一是很难确定偏向参数取何值能够使算法产生最优的聚类结果; 另一个是当震荡发生后算法不能自动消除震荡并收敛. 为了解决这两个问题, 提出了自适应仿射传播聚类方法, 具体技术包括: 自适应扫描偏向参数空间来搜索聚类个数空间以寻找最优聚类结果、自适应调整阻尼因子来消除震荡以及当调整阻尼因子方法失效时的自适应逃离震荡技术. 与原算法相比, 自适应仿射传播聚类方法性能更优, 能够自动消除震荡和寻找最优聚类结果. 对模拟和真实数据集的实验结果表明, 自适应仿射传播聚类方法十分有效, 其聚类质量优于或不低于原算法.  相似文献   

6.
为了改善协同过滤推荐算法在大数据下的稀疏性和可扩展性问题,提出一种基于Hadoop平台的分布式改进聚类协同过滤推荐算法。在分布式平台下,离线对高维稀疏数据采用矩阵分解算法预处理,改善数据稀疏性后通过改进项目聚类算法构建聚类模型,根据聚类模型和相似性计算形成推荐候选空间,在线完成推荐。实验验证该算法能够有效改善推荐系统的推荐质量并大大提高推荐效率,同时在云环境中具有良好可扩展性。  相似文献   

7.
张亮  杜子平  张俊  李杨 《计算机工程》2011,37(9):216-217,220
仿射传播方法难以处理具有流形结构的数据集。为此,提出一种基于拉普拉斯特征映射的仿射传播聚类算法(APPLE),在标准仿射传播的基础上增强流形学习的能力。使用测地距离计算数据点间相似度,采用拉普拉斯特征映射对数据集进行降维及特征提取。对图像聚类应用的实验结果证明了APPLE的聚类效果优于标准仿射传播方法。  相似文献   

8.
基于向量内积不等式的分布式k均值聚类算法   总被引:11,自引:2,他引:11  
聚类分析是数据挖掘领域的一项重要研究课题.随着数据量的急剧增加,针对大数据集的聚类分析成为一个难点.虽然k均值算法具有易实现、复杂度与数据集大小成线性关系的优点,将其应用于大数据集时仍然存在效率低的问题.分布式聚类是解决这一问题的有效方法.在已有分布式聚类算法k—DMeans基础上,结合向量内积不等式关系对算法加以优化,提出分布式聚类算法k—DCBIP.理论分析和实验结果表明,算法k—DCBIP优于k-DMeans,可以有效地解决大数据集聚类问题,算法是有效可行的.  相似文献   

9.
面对增量式增长的聚类数据,受云计算并行化处理模式的启发,文中对一种网格化聚类算法进行了MapReduce并行化研究。该算法首先利用网格处理技术对数据进行预处理,用网格预处理后所得单元的重心点取代该单元中保存的所有点,然后在MapReduce框架下将各个单元的重心点作为聚类分析的基本数据单元,进行聚类分析。实验结果表明,该算法MapReduce并行化后部署在Hadoop集群上运行,具有与原来相同的聚类效果,并能节省聚类分析的时间和降低计算的复杂度,适合用于高纬度、增量式的海量数据的分析和挖掘。  相似文献   

10.
面向大规模数据的快速并行聚类划分算法研究   总被引:1,自引:0,他引:1  
牛新征  佘堑 《计算机科学》2012,39(1):134-137,151
随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。  相似文献   

11.
为解决广义噪声聚类(GNC)算法非常依赖参数和在运行GNC算法前必须运行FCM算法以便计算参数的缺点,在GNC的目标函数和可能聚类算法(PCA)基础上,提出一种快速的广义噪声聚类(FGNC)算法。FGNC算法通过一种非参数化方法计算GNC目标函数中的参数,因而FGNC算法不依赖参数并且聚类速度快于GNC算法。对人工含噪声数据集和两个实际数据集进行仿真实验,实验结果表明FGNC算法能很好地处理含噪声数据,具有聚类中心更接近真实聚类中心,聚类准确性高,聚类时间少的优良性能。  相似文献   

12.
周欢欢  郑伯川  张征  张琦 《计算机应用》2022,42(5):1464-1471
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN?DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。  相似文献   

13.
CFSFDP(Clustering by Fast Search and Find of Density Peaks)是一种新的基于密度的聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点。但是对于类簇间密度相差较大的数据,该算法容易遗漏密度较小的类簇而影响聚类的准确率。针对这一问题,提出了基于密度比例峰值聚类算法即R-CFSFDP。该算法将密度比例引入到CFSFDP中,通过计算样本数据的密度比峰值来提高数据中密度较小类簇的辨识度,进而提升整体聚类的准确率。基于9个常用测试数据集(2个人工合成数据集,7个UCI数据集)的聚类实验结果表明,对于类簇间密度相差较大和类簇形状复杂的数据聚类问题,R-CFSFDP能够使得类簇中心更加清晰、易确定,聚类结果更好。  相似文献   

14.
何红洲  周明天 《计算机工程》2013,(12):181-185,190
已有的仿射传播聚类算法不能很好地反映复杂蛋白质序列本身的聚类结构。为此,提出一种基于哈夫曼判定的蛋白质分类方法。在计算广义置换式匹配相似度的基础上,使用已有的自适应仿射传播算法聚类蛋白质序列。采用哈夫曼编码方法,通过限制平均码长使聚类结果能反映蛋白质序列家族的聚类结构。在蛋白质同源聚类数据库和蛋白质结构分类数据库的6个数据集上进行实验,结果表明,该方法与adAP、谱聚类、SMS和TribeMCL方法相比,不仅能获得更接近于数据集家族的聚类数目及更紧凑的聚类结构,而且F—measure指标平均估值分别高出19.67%、8.7%、9.5%和43.51%。  相似文献   

15.
近邻传递算法的快速、有效性体现在处理大的聚类问题上。采用图像低层特征,包括颜色、纹理和边缘特征,使用近邻传播算法初次聚类,将聚类结果的中心作为k-means的初始中心进行二次聚类。实验表明,二次聚类的正确率比一次聚类提高了将近10%,达到了95%。  相似文献   

16.
为了提高进化数据流的聚类质量,提出基于半监督近邻传播的数据流聚类算法(SAPStream),该算法借鉴半监督聚类的思想对初始数据流构造相似度矩阵进行近邻传播聚类,建立在线聚类模型,随着数据流的进化,应用衰减窗口技术对聚类模型适时做出调整,对产生的类代表点和新到来的数据点再次聚类得到数据流的聚类结果。对数据流进行动态聚类的实验结果表明该算法是高质有效的。  相似文献   

17.
当前IKAnalyzer(IK)和ICTCLAS(IC)是主流的中文分词算法。文中首先通过理论对比二者在单机环境下的性能,然后使用Hadoop集群、Hadoop分布式文件管理系统(HDFS)和并行处理大数据集的Map Reduce组成的框架,利用优化后的算法,通过大量的实验对二者在分布式环境下处理大数据集的表现做出比较。  相似文献   

18.
随着云计算技术的蓬勃发展,各种应用产生的数据量日益庞大,然而目前大规模数据集的安全并未得到充分保障。密码学是确保数据安全的有效手段,但是将传统加密方法直接应用于大数据加密存在安全隐患。提出了针对大规模数据集加密的排列算法,包括两方面工作:提出一种适用于大规模数据集的分组加密排列算法,对数据规模为2mN〈2m+1的数据集,经过m+2轮加密可实现全局扩散;基于MapReduce编程模型,在Hadoop平台上实现了分组加密排列算法。理论分析与实验结果表明,该排列算法具有优异的全局扩散性。  相似文献   

19.
近邻传播算法在非凸形、密度不均匀的数据集上很难得到理想的聚类结果。为此,基于核聚类的思想,将数据集非线性地映射到高维空间,使数据集更加分离。利用共享最近邻的相似度度量方法,提出一种密度不敏感的近邻传播算法DIS-AP,以弥补原算法易受特征集维数和密度影响的缺点,从而有效解决数据集非凸和密度不均匀问题,拓宽算法的应用范围。仿真实验结果证明,DIS-AP算法具有更好的聚类性能。  相似文献   

20.
基于近邻传播算法的最佳聚类数确定方法比较研究   总被引:2,自引:0,他引:2  
在聚类分析中,决定聚类质量的关键是确定最佳聚类数.提出采用聚类效果较好的近邻传播聚类算法对样本进行聚类,运用6种聚类有效性指标分别对聚类结果进行有效性分析,以确定最佳聚类数.具体分析了这些有效性指标,并改进了IGP指标确定最佳聚类数的方法.针对8个数据集,通过实验比较这些指标的性能.分析和实验结果表明,基于近邻传播聚类...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号