首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
以微博、微信为代表的社交网络不仅包含丰富的节点属性信息,还蕴含复杂的网络拓扑信息,这些社交网络通常可被建模为属性图.传统的图聚类方法假设节点属性与网络拓扑共享同一类簇结构.然而,在真实社交网络中,节点属性与网络拓扑所对应的类簇结构并非完全一致.譬如,通过社团发现技术分析新浪微博的好友关注列表能够直观地获取聚集在同一群组...  相似文献   

2.
图结构聚类(SCAN)是一种著名的基于密度的图聚类算法。该算法不仅能够找到图中的聚类结构,而且还能发现图中的Hub节点和离群节点。然而,随着图数据规模越来越大,传统的SCAN算法的复杂度为O(m1.5)(m为图中边的条数),因此很难处理大规模的图数据。为了解决SCAN算法的可扩展性问题,本文提出了一种新颖的基于MapReduce的海量图结构聚类算法MRSCAN。具体地,我们提出了一种计算核心节点,以及两种合并聚类的MapReduce算法。最后,在多个真实的大规模图数据集上进行实验测试,实验结果验证了算法的准确性、有效性,以及可扩展性。  相似文献   

3.
李小红  罗敏 《计算机科学》2012,39(9):162-165
提出了一种新的基于图划分的聚类算法——GAGPBCUK算法。该算法解决了谱聚类算法参数敏感和聚类结果不准确等问题。3组仿真实验结果表明,GAGPBCUK算法不仅在识别和学习数据集中的隐含聚类数方面具有很好的性能,而且能够得到比谱聚类算法(NJW算法)更加有效的聚类结果。  相似文献   

4.
在众多聚类算法中,谱聚类作为一种代表性的图聚类算法,由于其对复杂数据分布的适应性强、聚类效果好等优点而受到人们的广泛关注.然而,由于其高计算时间复杂度难以应用于处理大规模数据.为提高谱聚类算法在大规模数据集上的可用性,提出关键节点选择的快速图聚类算法.该算法包含三个重要步骤:第一,提出一种充分考虑抱团性和分离性的快速节...  相似文献   

5.
基于DNA计算的层次图聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
薛洁  刘希玉 《计算机工程》2012,38(12):188-190
为解决使用DNA计算图聚类问题,提出一种基于DNA计算的层次图聚类算法。在分裂层次聚类中,使用DNA分子对图中顶点、边进行编码,在试管中并行产生最小生成树,根据给定阈值,通过切割树枝得到聚类结果。在凝聚聚类中使用DNA计算产生哈密尔顿路径,通过寻找最短哈密尔顿路径得到聚类结果。实验结果验证了该算法的可行性。  相似文献   

6.
用于文本聚类的模糊谱聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。  相似文献   

7.
分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析.利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的丈本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数.这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解.实验结果表明了该算法的高质量和高效率.  相似文献   

8.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

9.
图聚类可以发现网络中的社区结构,是复杂网络分析中的一项重要任务。针对不同节点的聚类难度各异的问题,提出了一种基于节点聚类复杂度的图聚类算法(Graph Clustering Algorithm Based on Node Clustering Complexity, GCNCC),用于判断节点的聚类复杂度,为聚类复杂度低的节点赋予伪标签,利用伪标签提供的监督信息降低其他节点的聚类复杂度,进而得到网络聚类结果。GCNCC包括节点表示、节点聚类复杂度判别和图聚类3个主要模块。节点表示模块得到保持网络集聚性的表示;节点聚类复杂度判别模块用于判断网络中的低聚类复杂度节点,并利用低聚类复杂度节点的伪标签信息来优化更新网络中其他节点的聚类复杂度;图聚类模块采用标签传播方法,将低聚类复杂度节点标签传播给高聚类复杂度节点,以得到聚类结果。在3个真实的引文网络和3个生物数据集上与9种经典算法进行对比,算法GCNCC在ACC,NMI,ARI和F1等方面均表现良好。  相似文献   

10.
李雪 《计算机应用研究》2021,38(4):1149-1153,1164
为了均衡移动自组织网络的能耗,提高簇结构稳定性,提出了一种基于IK-means聚类的分簇路由算法(IK-CRA).首先利用IK-means算法对网络中的节点进行分簇;然后通过节点的剩余能量、邻居节点数与连通代价的比值、链路维持时间构造适应度函数,采用改进的人工蜂群算法(IABC)解决分簇路由算法中的最优簇头问题.仿真结果表明,IK-CRA算法缩短了成簇时间,降低了节点的状态变化率,减少了节点的能量消耗,延长了簇首的持续时间,提高了动态环境下簇结构的稳定性.  相似文献   

11.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

12.
王国辉  林果园 《计算机应用》2011,31(7):1898-1900
针对当前聚类算法仅依赖于初始聚类中心并且无法精确区别非凹形状类的不足,现将图学习知识应用到聚类算法中,提出了一种基于图聚类的入侵检测算法P-BFS。为得到较准确的分类模型,算法中引入了一种基于逼近函数的相似性度量方法。实验结果论证了图聚类思想应用于入侵检测系统的优越性;同时表明了,与K-means聚类算法相比,P-BFS图聚类算法具有较高的性能。  相似文献   

13.
关系数据可抽象为网络,在通常情况下,缺乏对这些现实网络背景知识的了解。为了评价图聚类算法在现实网络上的性能表现,构建了一种接近现实的网络模型,通过算法在模型网络上的性能表现来推断其分析现实网络的能力。为了确保此推断的合理性,构建的模型网络具有与所研究网络完全相同的一阶统计特征。同时,构建的模型网络可具有任意设定的集团结构,这就相当于给定了背景知识,即真实的分类信息是已知的。实例说明,构建的模型为客观评价图聚类算法提供了一条途径。  相似文献   

14.
针对许多经典的图聚类算法存在输入参数难以确定、时间复杂度过高、聚类精度较低等缺点,本文提出了一种无需输入参数的基于核心顶点的图聚类算法(NGCC)。该算法将相似的顶点分配到同一个簇后,再利用PageRank算法发现核心顶点以形成初始簇。然后,将剩余的未标记顶点进行分配,形成最终簇结构。实验结果证明,NGCC算法在无需任何参数的条件下,在不同规模的数据集上的聚类质量与对比的经典图聚类算法相当或更优,而且适用范围更广。  相似文献   

15.
为了对图数据库中的结构化数据有效的聚类分析,首先对不同的图数据样本进行特征的深度挖掘,构造了包含节点间连接层次关系的关联度矩阵,与拉普拉斯矩阵结合共同完成谱特征分析;然后利用高斯核函数进行相似度矩阵的构建,将相似度归一化到0到1的范围内便于后期处理;最后结合图分割与k-means算法将相似度矩阵进行k分割,得到k个聚类。经过大量分析实验表明,改进的拉普拉斯矩阵对样本内部结构有更为精细的划分,提高了前期样本处理效果。最小比率割算法在保证精度的前提下,将NP难的问题转化为多项式时间内解决的问题,提高了算法的效率。  相似文献   

16.
陈献  胡丽莹  林晓炜  陈黎飞 《计算机应用》2021,41(12):3447-3454
现有的有向图聚类算法大多基于向量空间中节点间的近似线性关系假设,忽略了节点间存在的非线性相关性。针对该问题,提出一种基于核非负矩阵分解(KNMF)的有向图聚类算法。首先,引入核学习方法将有向图的邻接矩阵投影到核空间,并通过特定的正则项约束原空间及核空间中节点间的相似性。其次,提出了图正则化核非对称NMF算法的目标函数,并在非负约束条件下通过梯度下降方法推导出一个聚类算法。该算法在考虑节点连边的方向性的同时利用核学习方法建模节点间的非线性关系,从而准确地揭示有向图中潜在的结构信息。最后,在专利-引文网络(PCN)数据集上的实验结果表明,簇的数目为2时,和对比算法相比,所提算法将DB值和DQF值分别提高了约0.25和8%,取得了更好的聚类质量。  相似文献   

17.
从Internet拓扑的幂律特征(度分布律)出发,定义了主干子图的相关概念,证明了主干子图的若干性质,并在此基础上给出了基于主干子图的聚类算法。该算法可应用于有幂律特征的大型图的混合布局,也可为幂律特征网络的研究提供参考。幂律特征图可以被分解为一个主干子图和多个子树。主干子图是一些度相对较高节点的集合;而子树则正好相反,幂律特征有效地保证了节点度分布的非均一特性。基于主干子图理论的图聚类算法可以分成两个步骤,即主干子图生成算法和桩树生成算法。主干子图Gs(Vs,Es)与原始图G(V,E)之间的同态等价关系  相似文献   

18.
K-means算法最佳聚类数确定方法   总被引:10,自引:0,他引:10  
K-means聚类算法是以确定的类数k为前提对数据集进行聚类的,通常聚类数事先无法确定。从样本几何结构的角度设计了一种新的聚类有效性指标,在此基础上提出了一种新的确定K-means算法最佳聚类数的方法。理论研究和实验结果验证了以上算法方案的有效性和良好性能。  相似文献   

19.
以图计算形式研究社交网络由来已久,但对于如何提升图计算应用于大规模社交网络的计算速度和扩展性,一直是研究的难点。谱图论的应用为社交网络在图计算方面的研究带来新的研究热点,谱图分割为社交网络社区划分带来基于结构的支撑。为了解决谱图论在处理大规模社交网络时存在计算缓慢、内存溢出等问题,本文提出了谱聚类改进算法结合矩阵方式在并行环境下的处理方法。首先,利用Spark对网络数据进行并行化预处理,将社交网络以图结构表示,再将图转化为Spark分布式稀疏矩阵。然后,将谱聚类改进算法在Spark环境下,实现并行化社交网络社区快速划分,并以分布式方式持久化存储源数据、中间计算数据和计算结果,提高图计算在社交网络中的可靠性。最后,通过实验证明并行化图计算方法能有效提高计算速度和扩展性,支持大规模社交网络的挖掘分析,实现并行算法下高并发、高吞吐的特点。  相似文献   

20.
针对传统谱聚类算法难以应用于大规模高光谱图像,以及现有的改进谱聚类算法对大规模高光谱图像的处理效果不佳的问题,为降低聚类数据的复杂度,以降低聚类过程的计算成本从而多方面提升聚类性能,提出一种基于超像素锚图二重降维的高光谱聚类算法。首先,对高光谱数据进行主成分分析(PCA)处理,并针对高光谱图像的区域特性对其进行基于超像素切割的降维;其次,通过构造锚图的思想对上一步所得数据进行锚点的选取,并构建邻接锚图来实现二重降维,从而进行谱聚类;同时,为去除算法运行中人为调节参数的环节,在构建锚图时采用一种去除高斯核的无核锚图构造方式以实现自动构图。在Indian Pines数据集和Salinas数据集上的实验结果表明所提算法在保证可用性与低耗时的前提下可提高聚类的整体效果,从而验证了所提算法能提高聚类的质量与性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号