首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 187 毫秒
1.
由于大部分图挖掘算法都需要利用频繁子图,频繁子图挖掘逐渐成为了数据挖掘领域中的热点研究内容。目前,很多高效的频繁子图挖掘算法已经被提出。其中,gSpan算法是目前公认的最好的频繁子图挖掘算法。然而,在化合物数据集上,还可以利用化合物的特殊结构进一步优化gSpan算法的性能。文献利用了化合物分子结构的对称性和原子类型分布的不均衡性,提出了一些新的优化策略,进一步改进了gSpan的性能。鉴于gSpan算法在图挖掘领域乃至整个数据挖掘领域的重要性,设计并实现gSpan算法。同时,采用文献[4]中的优化策略,进一步提高gSpan算法在化合物数据集上的运行效率。  相似文献   

2.
gSpan算法是一种基于频繁图的数据挖掘算法。该算法基于无候选人产生的频繁子图,采用深度优先搜索策略挖掘频繁连接子图。由于其设计结构具有连续性以及无候选人产生,算法的性能得以提高,在执行速度上可以达到前人算法如FSG算法的15~100倍。基于化合物库Chemical-340测试发现,该算法能够以卓越性能有效挖掘频繁子图。该算法可以应用在搜索具有相同子结构的化合物研究中,对相关领域研究发展具有重要意义。  相似文献   

3.
gSpan算法是一种基于频繁图的数据挖掘算法。该算法基于无候选人产生的频繁子图,采用深度优先搜索策略挖掘频繁连接子图。由于其设计结构具有连续性以及无候选人产生,算法的性能得以提高,在执行速度上可以达到前人算法如FSG算法的15~100倍。基于化合物库Chemical_340测试发现,该算法能够以卓越性能有效挖掘频繁子图。该算法可以应用在搜索具有相同子结构的化合物研究中,对相关领域研究发展具有重要意义。  相似文献   

4.
FSM——基于子图同构和结构同构的频繁子图挖掘算法   总被引:1,自引:0,他引:1  
图结构挖掘已成为当前数据挖掘的研究重点之一.在文本结构分析、生物信息处理以及网络结构分析等领域图结构挖掘都有着广泛应用.频繁子图的数量通常随图的大小呈指数增长,为此人们提出了很多的解决方法,如FSG,gSpan,Closeraph.通过引入子图同构和结构同构的概念,借助贪婪搜索算法和完全级别搜索算法的思想,结合图论和频繁项目集的挖掘算法,提出了一种新的频繁子图挖掘算法--FSM(frequent subgraph mining). FSM算法降低了寻找频繁子图的复杂度,提高了图结构挖掘的效率.  相似文献   

5.
一种基于Apriori思想的频繁子图发现算法   总被引:1,自引:0,他引:1  
如今,关联规则技术应用在许多非传统领域,许多已有的频繁项集搜索方法已经不适用了。一种解决的方法就是用图的形式表示这些领域的事务,然后利用基于图论的数据挖掘技术发现频繁子图。本文提出了一种基于Aproiri思想的频繁子图发现算法SLAGM,它可以有效地挖掘简单图中的频繁子图。实验证明,该算法在性能上优于另一种子图挖掘算法AGM。  相似文献   

6.
图挖掘是数据挖掘的一个重要研究方向,而图挖掘主要集中在图数据集内频繁子图的挖掘。频繁子图挖掘技术的关键是建立有效机制减少冗余候选子图,以便高效计算和处理所需的频繁子图。提出了一种基于路径的频繁子图挖掘算法,该算法首先找出所有频繁边从而挖掘出频繁单路径,然后通过组合、双射和操作扩展出较多的频繁路径,再通过连接操作产生所有频繁子图候选集。通过定理证明了该算法的正确性和完整性,从理论上分析了该算法时间复杂度低于现有的算法,最后进行了2个图数据集实验,在候选集产生的数量和时间性能2方面验证了算法的优越性。  相似文献   

7.
频繁子图挖掘是图挖掘的一个重要研究课题.gSpan算法作为一种高效的子图挖掘算法具有较好的执行效率,它通过最右扩展生成频繁子图,但不能保证每次扩展得到的均为标准编码.针对此问题本文提出了一种改进的算法CSGM,它采用ADI++存储结构,能处理更大规模的图集,同时保证每次最右扩展均生成标准编码,既避免了对非标准编码图的支持度计算,也避免了对输入编码是否为标准编码的计算.在实际数据集上运行的实验结果表明它比原算法提高了挖掘效率.  相似文献   

8.
随着图数据收集技术在许多科学领域的发展,对图数据分类已成为机器学习和数据挖掘领域的重要课题.目前已经提出许多图分类方法.其中,一些图分类方法采用3步来构筑分类模型;一些图分类方法采用2步来构筑分类模型.这些方法在挖掘频繁子图或特征子图时,只考虑到子图的结构信息,而没有考虑到子图的嵌入信息.为此,在L-CCAM子图编码的基础上,提出了一种基于嵌入集的图分类方法.该方法采用基于类别信息的特征子图选择策略,不但考虑了子图的结构信息,而且在频繁子图挖掘过程中充分利用嵌入信息——嵌入集,通过一步即直接选择特征子图以及生成分类规则.实验结果表明:在对化合物数据分类时,在分类精度上该方法优于采用3步的图分类方法;在运行效率上该方法优于采用2步和3步的图数据分类方法.  相似文献   

9.
频繁闭合项目集的并行挖掘算法研究   总被引:2,自引:1,他引:2  
缪裕青 《计算机科学》2004,31(5):166-168
频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。  相似文献   

10.
随着数据集规模的不断增大,提高频繁项集的挖掘效率成为数据挖掘领域的研究重点。频繁项集的增量更新挖掘算法因其可以利用已挖掘发现的信息提高对新数据集的挖掘效率,成为重要的研究方向。但现有频繁项集增量更新算法大多基于APRIORI算法框架,性能提高有限。最近出现的建立在FP‐T REE等树形结构上的增量更新算法又往往存在树形结构调整困难、已发现频繁项集及树形结构保存效率较低等问题,算法性能有待进一步地提高。对此,通过分析增量挖掘过程中的关键信息,提出了一种基于磁盘存储1项集计数的增量FP_GROWTH算法(IU_FPGROWTH_1COUNTING)。该算法无需保存临时树形结构及临时挖掘结果,可以在原数据集及支持度均发生变化时,减少FP_GROWT H算法对数据集的扫描,提高频繁项集的挖掘效率。在生成以及真实数据集上进行了验证实验以及性能分析,结果表明IU_FPGROWTH_1COUNTING是一种有效的频繁项集增量更新挖掘算法。  相似文献   

11.
频繁子图挖掘是各种图挖掘的基础和瓶颈,为了提高频繁子图挖掘算法的效率,在频繁闭图方法的基础上提出了一种新算法BPCG.首先使用了一种新结构表存储频繁子图集,从而不需扫描图集就可直接扩展最频繁邻接边及计算支持度阈值;然后算法又利用兄弟剪枝策略和删除局部频繁边,缩小搜索空间并减少不必要的操作.通过实验证明,算法优于其他子图挖掘算法.  相似文献   

12.
加权最大频繁子图挖掘算法的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
如何从大量的图中挖掘出令人感兴趣的子图模式已经成为数据挖掘领域研究的热点之一。传统的频繁子图挖掘方法对满足最小支持度阈值的子图同等对待,但在真实数据库中不同的子图往往具有不同的重要程度。为解决上述问题,提出了一种深度优先的挖掘加权最大频繁子图的新算法。首先给出了一种新的用于计算图的邻接矩阵规范编码的结点排序策略,大大降低了求图规范编码的复杂度,并可以加速子图规范编码匹配的速度。其次,给出了加权最大频繁子图的定义,不仅可以找出较为重要的最大频繁子图,而且可以使挖掘结果同样具有反单调性,从而可加速剪枝。实验结果表明,提出的算法不仅可以有效地减少挖掘结果的数量,而且具有较高的效率。  相似文献   

13.
王桂娟  印鉴  詹卫许 《计算机科学》2011,38(8):169-170,175
选择频繁的特征子图在基于频繁子图的图数据分类中起着非常重要的作用.提出了一种基于类别信息的特征子图选择策略,即从候选的频繁子图中选出独有频繁子图和显著频繁子图作为特征子图.实验结果显示,在对化合物数据分类时,该选择策略在分类性能上优于SVM方法特征选择策略和CEP方法的特征选择策略.  相似文献   

14.
Data mining in structured and semi-structured data focuses on frequent data values. However, in graph data mining, the focus is on common specific topologies. Graph mining, although its ubiquity, is a difficult task since it requires subgraph isomorphism which is known to be NP-complete. In order to effectively prune the search space and thereby save computational time, a graph mining algorithm requires that the support measure of a pattern to be no greater than that of its subpatterns. This property of the support measure is referred to in the literature as the down-closure, anti-monotonicity or admissibility. Unfortunately, when mining a single labeled graph, simply counting the occurrences of a graph pattern may not have the down-closure property. For this, most existing approaches mine frequent substructures in a set of labeled graphs (called also the transactional setting) and few efforts have been devoted to mining frequent globally distributed substructures in a single labeled graph. In this paper, we propose a graph mining algorithm, called NODAR(Non-Overlapping embeDding based grAph mineR), for computing common and globally distributed substructures in a single labeled graph. NODAR adopts the Depth-First Search (DFS) strategy and is based on the SMNOES (Size of Maximum Non Overlapping Embedding Set) as support measure. The core idea of NODAR is to automatically extract frequent subpatterns; and thus without frequency computation thanks to the down-closure property of SMNOES. By adopting this strategy in the computation of frequent substructures, NODAR reduces the number of subgraph isomorphism tests needed to compute pattern frequencies. Experimental results on monograph and transactional graph databases; and comparison with well-known probabilistic and exact algorithms; prove the efficacy of NODAR.  相似文献   

15.
不同时刻的动态网络往往具有不同权重,针对加权动态网络的频繁模式挖掘,提出一种挖掘算法WGDM,它适用于加权动态社会网络、生物网络等方面的频繁模式挖掘。WGDM算法利用支持度的反单调性裁剪搜索空间,从而减少冗余候选子图,提高算法效率。通过实验测试了WGDM算法的性能,并根据中国实际股票市场网络,利用WGDM算法挖掘股票市场网络中有趣的频繁模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号