首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对许多经典的图聚类算法存在输入参数难以确定、时间复杂度过高、聚类精度较低等缺点,本文提出了一种无需输入参数的基于核心顶点的图聚类算法(NGCC)。该算法将相似的顶点分配到同一个簇后,再利用PageRank算法发现核心顶点以形成初始簇。然后,将剩余的未标记顶点进行分配,形成最终簇结构。实验结果证明,NGCC算法在无需任何参数的条件下,在不同规模的数据集上的聚类质量与对比的经典图聚类算法相当或更优,而且适用范围更广。  相似文献   

2.
多尺度聚类挖掘算法   总被引:3,自引:1,他引:2  
数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先,根据概念分层理论扩展尺度定义并构建多尺度数据集;其次,阐述尺度转换原因、分类,归纳多尺度聚类的定义;然后,以克里格法为理论基础,给出多尺度聚类尺度上推算法MSCSUA和多尺度聚类尺度下推算法MSCSDA;最后,利用公用UCI聚类数据集和H省全员人口真实数据集对算法进行实验验证,结果表明MSCSUA和MSCSDA是有效、可行的。  相似文献   

3.
多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法.为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm).算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上.实验表明,算法WVB-MSCA是可行且有效的.  相似文献   

4.
随着Internet技术的高速发展,如何从海量的Web信息中快速而有效地获得所需信息也就成为一项重要课题,而数据挖掘技术是解决这一难题的有效办法。其中数据挖掘中的聚类方法是用来发现数据分布的一项重要方法。本文首先阐述了Web挖掘的有关理论,然后针对Web挖掘中的分层聚类法进行了较为详细的论述,最后使用该算法并结合改进的特征权值计算方法和文本相似度的计算方法,建立了训练文本库。  相似文献   

5.
聚类算法的好坏直接影响聚类的效果。文章讨论了经典的k-中心聚类算珐,说明了它存在不能很好地处理大数据集的问题,提出了一种基于加权改进的k-中心聚类算法,克服了k-中心聚类算法的一些缺点,并从理论上分析了该算祛的复杂度。实验证明,用该方法实现的数据聚类与传统的基于中心的方法相比较,能有效提高数据聚类效果。  相似文献   

6.
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。该文提出了一种粗糙谱聚类算法,并将其应用于文本数据挖掘。实验表明,该算法与现有的文本聚类算法相比,准确率有一定的提高。  相似文献   

7.
多视角聚类通过利用多视角之间的互补性和一致性信息来提高聚类的性能.近年来受到越来越多的关注.为了及时掌握目前基于图的多视角聚类算法的研究现状与最新技术,对大量的、最新的多视角图聚类进行调查、归纳整理、分类及总结.根据多视角聚类涉及的算法机制和数学原理,并进一步分为基于图、基于网络和基于谱的聚类方法.不仅详细介绍了每一类...  相似文献   

8.
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。该文提出了一种粗糙谱聚类算法,并将其应用于文本数据挖掘。实验表明,该算法与现有的文本聚类算法相比,准确率有一定的提高。  相似文献   

9.
基于模糊聚类的文本挖掘算法   总被引:8,自引:3,他引:5       下载免费PDF全文
针对传统FCM算法对孤立点比较敏感,须预先指定聚类数目的缺陷,提出一种新的模糊聚类算法NSFCM,将其应用干文本挖掘中。NSFCM对数据对象的隶属度增加一个权值,以减少孤立点对聚类中心的影响。采用平均信息熵确定聚类数,通过密度函数获得初始聚类中心。仿真结果证明,该算法聚类的精度和执行效率均高于FCM算法,效果较好。  相似文献   

10.
用于文本聚类的模糊谱聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。  相似文献   

11.
社交关系的数据挖掘一直是大图数据研究领域中的热门问题。图聚类算法如SCAN(Structural clustering algorithm for networks)虽可迅速地从海量图数据中获得关系紧密的社区结构,但这类社区往往只表示了社交对象的聚集,无法反馈对象间的真实社交关系,如家庭成员、同事、同学等。要获取对象间真实的社交关系,需要更多维度地挖掘现实中社交对象间复杂的交互关系。对象间的交互维度很多,例如:通话、见面、微信、Email等,而传统SCAN等聚类算法仅能够挖掘单维度的交互数据。本文在研究社交对象间的多维社交关系图数据与传统图结构聚类算法的基础上,提出了一种有效的子空间聚类算法SCA(Subspace Cluster Algorithm),首次对多维度下子空间的图结构聚类进行研究,目的是探索如何通过图数据挖掘发现对象间真实的社交关系。SCA算法遵循自底向上的原则,能够发现社交图数据中所有子空间的聚类集。为了提升SCA的运行速度,我们利用其子空间聚类单调性进行了性能优化,进而提出了剪枝算法SCA+。最后,我们进行了大规模的性能测试实验,以及真实数据的案例研究,其结果验证了算法的效率和效用。  相似文献   

12.
The designation of the cluster number K and the initial centroids is essential for K-modes clustering algorithm. However, most of the improved methods based on K-modes specify the K value manually and generate the initial centroids randomly, which makes the clustering algorithm significantly dependent on human-based decisions and unstable on the iteration time. To overcome this limitation, we propose a cohesive K-modes (CK-modes) algorithm to generate the cluster number K and the initial centroids automatically. Explicitly, we construct a labeled property graph based on index-free adjacency to capture both global and local cohesion of the node in the sample of the input datasets. The cohesive node calculated based on the property similarity is exploited to split the graph to a K-node tree that determines the K value, and then the initial centroids are selected from the split subtrees. Since the property graph construction and the cohesion calculation are only performed once, they account for a small amount of execution time of the clustering operation with multiple iterations, but significantly accelerate the clustering convergence. Experimental validation in both real-world and synthetic datasets shows that the CK-modes algorithm outperforms the state-of-the-art algorithms.  相似文献   

13.
Signed network is an important kind of complex network, which includes both positive relations and negative relations. Communities of a signed network are defined as the groups of vertices, within which positive relations are dense and between which negative relations are also dense. Being able to identify communities of signed networks is helpful for analysis of such networks. Hitherto many algorithms for detecting network communities have been developed. However, most of them are designed exclusively for the networks including only positive relations and are not suitable for signed networks. So the problem of mining communities of signed networks quickly and correctly has not been solved satisfactorily. In this paper, we propose a heuristic algorithm to address this issue. Compared with major existing methods, our approach has three distinct features. First, it is very fast with a roughly linear time with respect to network size. Second, it exhibits a good clustering capability and especially can work well with complex networks without well-defined community structures. Finally, it is insensitive to its built-in parameters and requires no prior knowledge.  相似文献   

14.
社交网络数据的高度复杂性给数据挖掘研究带来了巨大的挑战,而社交网络数据挖掘更注重实体之间相互关联的特点,使得图数据挖掘技术的研究与应用逐渐成为该领域的热点。传统数据挖掘,如聚类、分类、频繁模式挖掘等技术逐渐拓展到图数据挖掘领域。文中首先介绍了现阶段图数据挖掘算法(其中包括图查询、图聚类、图分类和图的频繁子图挖掘)的研究内容和存在的问题;其次介绍了图形数据库研究现状,以及对比了主流图形数据库管理系统的优劣;最后介绍了图挖掘技术在社交网络中的应用。  相似文献   

15.
金融文本多标签分类算法可以根据用户需求在海量金融资讯中实现信息检索。为进一步提升金融文本标签识别能力,建模金融文本多标签分类中标签之间的相关性,提出基于图深度学习的金融文本多标签分类算法。图深度学习通过深度网络学习局部和全局的图结构特征,可以刻画节点之间的复杂关系。通过建模标签关联实现标签之间的知识迁移,是构造具有强泛化能力算法的关键。所提算法结合标签之间的关联信息,采用基于双向门控循环网络和标签注意力机制得到的新闻文本对应不同标签的特征表示,通过图神经网络学习标签之间的复杂依赖关系。在真实数据集上的实验结果表明,显式建模标签之间的相关性能够极大地增强模型的泛化能力,在尾部标签上的性能提升尤其显著,相比CAML、BIGRU-LWAN和ZACNN算法,该算法在所有标签和尾部标签的宏观F1值上最高提升3.1%和6.9%。  相似文献   

16.
针对PU(Positive and Unlabeled)文本分类问题,提出了一种基于图卷积网络的PU文本分类算法(GCN-PU),基本思想是给未标注样本加以不同的损失权重。将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的倒数第二层的向量为文本的特征向量,以及对应的类别概率,作为图卷积网络的输入;利用图卷积网络得出的类别概率计算每个未标注样本的损失权重,重新训练文本分类器。不断重复上述三个步骤,直到算法参数稳定。在公开数据集20newsgroup上的实验结果表明,GCN-PU算法优于现有的方法,尤其在正类样本较少的情况下。  相似文献   

17.
基于图划分的谱聚类算法在文本挖掘中应用   总被引:1,自引:0,他引:1  
传统文本挖掘算法都是建立在凸球形的样本空间上,当样本空间不为凸时,算法就陷入"局部"最优.为了满足"全局"最优,引进了无向图结构表示文档之间的相似关系,由无向图建立文档之间的相邻接矩阵,谱聚类算法是通过对邻接矩阵进行分析,导出聚类对象的新特征,利用新的特征对原数据进行聚类.通过实验对该算法和其他的文本挖掘的算法进行分析比较,实验结果表明该算法聚类效果比传统数据挖掘方法好.最后指出谱聚类的不足和进一步的研究方向.  相似文献   

18.
Free tree, as a special undirected, acyclic and connected graph, is extensively used in computational biology, pattern recognition, computer networks, XML databases, etc. In this paper, we present a computationally efficient algorithm F3TM (Fast Frequent Free Tree Mining) to find all frequently-occurred free trees in a graph database, . Two key steps of F3TM are candidate generation and frequency counting. The frequency counting step is to compute how many graphs in containing a candidate frequent free tree, which is proved to be the subgraph isomorphism problem in nature and is NP-complete. Therefore, the key issue becomes how to reduce the number of false positives in the candidate generation step. Based on our observations, the cost of false positive reduction can be prohibitive itself. In this paper, we focus ourselves on how to reduce the candidate generation cost and minimize the number of infrequent candidates being generated. We prove a theorem that the complete set of frequent free trees can be discovered from a graph database by growing vertices on a limited range of positions of a free tree. We propose two pruning algorithms, namely, automorphism-based pruning and canonical mapping-based pruning, which significantly reduce the candidate generation cost. We conducted extensive experimental studies using a real application dataset and a synthetic dataset. The experiment results show that our algorithm F3TM outperforms the up-to-date algorithms by an order of magnitude in mining frequent free trees in large graph databases.  相似文献   

19.
图卷积神经网络(Graph Convolutional Neural Network)能有效地提取非欧式距离数据中的特征信息。提出一种基于图卷积网络模型的无监督社区检测算法。选择图中某些节点添加人工标签来模拟在图上的信号输入,使其满足图卷积网络的传播特征的要求,通过修改后的图卷积网络传播规则将节点本身的标签传递至其相邻节点,通过对同一节点获得的不同标签进行比较后将节点归类,之后优化归类结果并输出社区划分矩阵。使用现实世界的数据集进行测试,并与一些其他社区检测算法进行对比评估。实验结果表明算法在不同类型的数据集中都能得到很好的社区划分效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号