首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 572 毫秒
1.
面向大规模数据集的近邻传播聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类结果中的簇代表点再次或多次聚类,直至得到合适的簇划分。实验结果表明,该算法在处理能力和运算速度上优于原算法。  相似文献   

2.
针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。  相似文献   

3.
覃华  詹娟娟  苏一丹 《控制与决策》2017,32(10):1796-1802
针对近邻传播聚类算法偏向参数难选定、生成的簇数目偏多等问题,提出一种概率无向图模型的近邻传播聚类算法.首先为样本数据构建概率无向图模型,利用极大团和势函数计算无向图中数据样本的概率密度,将此概率密度作为一种聚类先验知识注入近邻传播算法的偏向参数中,提高算法的聚类效率;并用高斯降噪和簇归并方法进一步提升算法的聚类精度.在UCI数据集上的实验结果表明,所提出算法的聚类效率和精度均优于相比较的同类算法.  相似文献   

4.
崔可想  李志华 《计算机工程》2012,38(23):104-108
低功耗自适应集簇分层型协议LEACH算法对簇头的选择具有随机性,并且没有综合考虑节点的剩余能量、分布位置。为此,提出一种基于能量的仿射传播聚类EBAPC分簇拓扑控制算法。对适应度因子重新进行定义,借鉴仿射传播AP聚类算法中聚类中心的选择策略,簇头选择综合考虑无线传感器网络节点的剩余能量和节点之间的距离因素。仿真实验结果表明,EBAPC算法较LEACH算法分簇更均匀,簇头选择更合理,网络中能量的消耗更均衡,从而延长网络寿命。  相似文献   

5.
鉴于现有算法缺乏从时序演化角度解决不确定数据流聚类问题,提出基于近邻传播的不确定数据流演化聚类算法。考虑不确定数据流在线形成微簇时的变化因素对离线聚类的影响,提出不确定微簇变化率的概念。从不确定数据流演化的角度衡量微簇之间的相似程度,提出不确定微簇关联度的概念,并以此为基础构造不确定相似度矩阵,结合近邻传播思想实现不确定数据流演化聚类。通过实验证明文中算法的有效性和良好的聚类效果。  相似文献   

6.
以密度敏感距离作为相似性测度,结合近邻传播聚类算法和谱聚类算法,提出了一种密度敏感的层次化聚类算法。算法以密度敏感距离为相似度,多次应用近邻传播算法在数据集中选取一些“可能的类代表点”;用谱聚类算法将“可能的类代表点”再聚类得到“最终的类代表点”;每个数据点根据其类代表点的类标签信息找到自己的类标签。实验结果表明,该算法在处理时间、内存占用率和聚类错误率上都优于传统的近邻传播算法和谱聚类算法。  相似文献   

7.
为了提高进化数据流的聚类质量,提出基于半监督近邻传播的数据流聚类算法(SAPStream),该算法借鉴半监督聚类的思想对初始数据流构造相似度矩阵进行近邻传播聚类,建立在线聚类模型,随着数据流的进化,应用衰减窗口技术对聚类模型适时做出调整,对产生的类代表点和新到来的数据点再次聚类得到数据流的聚类结果。对数据流进行动态聚类的实验结果表明该算法是高质有效的。  相似文献   

8.
关于网页聚类的研究已经提出多种基于文本—链接模型的聚类算法,其中应用最广泛的便是MS模型。针对MS模型在效率和计算精度方面的不足,提出了改进的TLMS模型。新模型通过将词聚成词簇、链接向量聚成链接簇的方法将MS模型的词空间和链接空间进行大幅的压缩,并应用近邻传播算法替代传统的K-means算法对网页进行聚类。实验证明,TLMS模型+近邻传播算法聚类精度高、执行效率好。  相似文献   

9.
周欢欢  郑伯川  张征  张琦 《计算机应用》2022,42(5):1464-1471
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN?DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。  相似文献   

10.
CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。本文通过对已有的基于多代表点的层次聚类算法特点的分析,提出了一种新的基于多代表点的层次聚类算法WRPC。它使用了基于影响因子的簇代表点选取机制和基于k-近邻方法的小簇合并机制,可以发现形状、尺寸更为复杂的簇。实验结果表明,该算法在保证执行效率的情况下取得了更好的聚类效果。  相似文献   

11.
Supervised clustering is a new research area that aims to improve unsupervised clustering algorithms exploiting supervised information. Today, there are several clustering algorithms, but the effective supervised cluster adjustment method which is able to adjust the resulting clusters, regardless of applied clustering algorithm has not been presented yet. In this paper, we propose a new supervised cluster adjustment method which can be applied to any clustering algorithm. Since the adjustment method is based on finding the nearest neighbors, a novel exact nearest neighbor search algorithm is also introduced which is significantly faster than the classic one. Several datasets and clustering evaluation metrics are employed to examine the effectiveness of the proposed cluster adjustment method and the proposed fast exact nearest neighbor algorithm comprehensively. The experimental results show that the proposed algorithms are significantly effective in improving clusters and accelerating nearest neighbor searches.  相似文献   

12.
为解决密度聚类算法在处理高维和多密度数据集时聚类结果不精确的问题,提出一种基于共享近邻亲和度(SNNA)的聚类算法。该算法引入[k]近邻和共享近邻,定义共享近邻亲和度作为对象的局部密度度量。算法首先根据亲和度来提取核心点,然后利用广度优先搜索算法对核心点进行聚类,最后对非核心点进行指派即完成整个数据集的聚类。实验结果表明,该算法能够发现任意形状、大小、密度的聚类;与同类算法相比,SNNA算法在处理高维数据时具有较高的聚类准确率。  相似文献   

13.
陆林花 《计算机仿真》2009,26(7):122-125,158
为了在聚类数不明确的情况下实现聚类分析,提出一种新的结合最近邻聚类和遗传算法的动态聚类算法.新算法包括两个阶段:第一阶段用最近邻聚类算法根据最近邻方法把最相似的实例分到同一个簇中并根据一些相似性或相异性度量过滤掉噪声数据从而得到初始聚类集,第二阶段是遗传优化阶段,利用动态聚类评估函数,动态地合并初始聚类集,从而获得接近最优的解.最后对算法进行了实验仿真,实验结果表明方法在事先不知道聚类数的情况下能够有效地进行聚类.  相似文献   

14.
针对传统谱聚类算法中亲合矩阵构造不准确和聚类结果不稳定的问题,提出一种基于邻里关系传播与模式合并的谱聚类算法。根据邻里关系传播原则更新子集内样本的相似度,设计局部最大相似值更新方法更新子集间样本的相似度,使用模式合并技术对子集个数较多的集合加以合并得出粗类,再对粗类间样本相似度进行二次更新,构造出亲合矩阵并将其用于谱聚类运算。实验结果表明,二次更新后,同类中样本的相似度被相对性放大,而不同类中样本的相似度则相对性缩小。与近邻传播的谱聚类算法相比,使用该算法能够得到更准确、稳定的聚类结果。  相似文献   

15.
基于改进的凝聚性和分离性的层次聚类算法   总被引:4,自引:0,他引:4  
由于传统的数据聚类算法都是在单一表上进行,因此如何在多表中进行聚类是现在聚类分析的一个新方向.提出了一种基于改进的凝聚性和分离性的层次聚类算法--ICCSH(a hierarchical clustering algorithm based on improved cluster cohesion and separation),该算法首先通过ID传播把关系数据库中的各个表联系起来,再通过计算共享最近邻的相似度和改进的凝聚性算法将数据对象聚类为大量相对较小的子聚类,然后通过计算改进的簇间分离性合并子类来找到真正的结果簇.实验表明,该算法不仅运行时间相对较短,具有较强的可伸缩性,还可以得到较高精确的聚类结果.  相似文献   

16.
针对聚类算法在教育大数据应用中存在的聚类数目依赖人工经验等问题,提出一种新的聚类有效性指标,用簇内全部样本与簇中心的距离之和表示簇内紧密度,用任意两簇间样本距离和的最小值表示簇间分离度,通过平衡簇内紧密度和簇间分离度之间的关系,实现最优聚类的划分。在UCI和KDD CUP99数据集上的测试结果表明,新指标的聚类质量评价结果有效、可靠。在此基础上,结合近邻传播算法设计新的聚类分析模型,使用该模型对某高校学生的职业能力进行聚类分析,结果表明:新模型能够准确地给出聚类数目k,有效地挖掘出学生的职业倾向,可以为大学生职业潜能分析、企业的人才选择提供依据与决策。  相似文献   

17.
邢艳  周勇 《计算机应用研究》2012,29(7):2524-2526
近邻传播(AP)算法是一种新提出的聚类算法,是在数据点的相似度矩阵的基础上进行聚类,通过数据点之间交换信息,最后得到聚类结果。提出了基于互近邻一致性近邻传播算法,即KMNC-AP算法,该算法利用互近邻一致性调整数据点之间的相似度,进而提高聚类效率和精确度。实验结果表明,该算法在处理能力和运算速度上优于原算法。  相似文献   

18.
密度分布不均数据是指类簇间样本分布疏密程度不同的数据.密度峰值聚类(DPC)算法在处理密度分布不均数据时,倾向于在密度较高区域内找到类簇中心,并易将稀疏类簇的样本分配给密集类簇.为避免上述缺陷,提出一种面向密度分布不均数据的近邻优化密度峰值聚类(DPC-NNO)算法.DPC-NNO算法结合逆近邻和k近邻定义新的局部密度,提高稀疏样本的局部密度,使算法能更准确地找到类簇中心;定义分配策略时引入共享近邻,计算样本间相似性,构造相似矩阵,使同一类簇样本联系更紧密,避免错误分配样本.将所提出的DPC-NNO算法与IDPC-FA、DPCSA、FNDPC、FKNN-DPC、DPC算法进行对比,实验结果表明,DPC-NNO算法在处理密度分布不均数据时能获得优异的聚类效果,对于复杂数据集和UCI数据集,DPC-NNO算法的综合性能优于对比算法.  相似文献   

19.
半监督的自动聚类   总被引:1,自引:0,他引:1  
潘章明 《计算机应用》2010,30(10):2614-2617
基于进化算法的自动聚类方法在处理聚类结构比较松散的数据集时,存在聚类准确性不高、收敛速度慢的缺陷,为此提出一种半监督的自动聚类算法。该算法从调整染色体的解码过程入手,首先从染色体中分离出聚类数和所有的质心,然后使用最近邻规则滤去部分偏离数据集分布区域的无效质心,最后嵌入先验信息辅助K-均值方法对剩余的质心聚类,进一步优化染色体的解码结果。实验结果表明,该算法对聚类结构紧密或松散的数据集均可给出较精确的聚类结果。  相似文献   

20.
王颖  杨余旺 《计算机科学》2018,45(5):196-200, 227
在谱聚类算法中,相似图的构造至关重要,对整个算法的聚类结果和运行效率都有着巨大影响。为了加快谱聚类的运算速度和通过近邻截断提高其性能,通常选择K近邻(KNN)方法来构造稀疏的相似图,而K近邻图对离群点非常敏感,这种噪声边会严重影响聚类算法的性能。文中提出了一种新的高效稀疏亲和图构造方法HCKNN,其中基于堆的K近邻搜索比基于排序的近邻选择在效率方面提升了log(n),基于邻域共存累计的阈值化来进行邻域约减不仅能够去除噪声边以提高聚类性能,还能进一步稀疏化相似矩阵,从而加速谱聚类中的特征分解。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号