首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
刘波  杨燕 《计算机工程》2009,35(3):51-53
频繁模式挖掘的研究对象包括事务、序列、树和图。该文提出用模式增长方法在无序树构成的森林中挖掘嵌入频繁子树。利用规范化方法实现用唯一的形式表现无序树,根据待增长模式的拓扑结构确定其增长点并构造相应的投影库,将挖掘频繁子树模式问题转化为在各个投影库中寻找频繁节点的问题。  相似文献   

2.
目前大多数频繁子树算法都是挖掘频繁子树完全集,这些算法数据搜索空间的内存开销和输出的结果集都非常庞大.为了减小结果集,提出基于子树约束的最大频繁子树算法--CSMTreeMiner,采用垂直和层次扩展的方法来枚举频繁子树,并使用覆盖关系来对不可能生成最大频繁子树的模式进行删除.实验结果验证CSMTreeMiner算法的有效性和稳定性.  相似文献   

3.
朱颖雯  吉根林 《计算机科学》2007,34(12):175-179
提出了一种高效的最大频繁Embedded子树挖掘算法——CMPETreeMiner。该算法采用先序遍历序列存储树,并将节点的范围属性加入该序列,采用伪投影技术对频繁子序列进行投影,并对投影序列中的每个节点编码。在挖掘带编码的频繁子序列过程中,对频繁子序列进行高效剪枝,得到最大频繁Embedded子树,无需生成所有频繁Embedded子树。实验结果表明,CMPETreeMiner算法是高效可行的。  相似文献   

4.
在挖掘无序树频繁模式的过程中,大多数的算法都是先产生候选者,再进行模式匹配判断它是否为频繁子树.产生候选者本身就需要消耗很大的空间来保存,并且要在复杂的树结构里做匹配也是件难事,它会影响整个挖掘过程的效率.为了尽量避免产生不必要的候选者,提高发现频繁模式的效率,基于对相关算法的研究,引进树投影资料库的概念,并在RootedTreeMiner算法的基础上,采用其模式延伸方法和广度优先标准型式概念,提出子树频繁度、频繁可延伸点串的概念,从而更有效系统地枚举所有的频繁模式树,并给出无序频繁子树挖掘算法FVTreeMiner.经系列实验结果证实了该算法合理、高效,并可以减少一定的内存开销和运行时间开销.  相似文献   

5.
郭鑫  黄云  颜一鸣  周清平 《计算机应用》2010,30(5):1300-1303
讨论频繁子树增量式更新问题,提出一种新的频繁子树增量式更新算法。提出有效树集概念和增量式更新策略,在更新挖掘时,无须重新运行子树挖掘程序,能充分利用已有的挖掘结果,算法只需要进行一次数据库遍历操作。提出候选子树剪枝策略,在更新挖掘过程中,能大幅减少子树同构次数,有效地提高了算法的运行效率。通过大量实验分析表明,算法有效可行且具有较高的运行效率。  相似文献   

6.
ESPM--频繁子树挖掘算法   总被引:15,自引:2,他引:13  
随着互联网的发展,频繁模式的挖掘由频繁项集扩展到结构化数据:树和图.在这些结构上的挖掘工作被应用于更为复杂的领域,比如生物信息学、网络日志和XML文档.提出了一个新颖的算法:ESPM,以挖掘有序标号树中的频繁子树.不同于以往的工作,把树同构的判断工作放到了算法的晚期,从而减少了整个挖掘过程的时间开销.人工数据集和真实数据集上的实验都证明ESPM相较于其他算法的优越性.还提出了一些可能的改进.  相似文献   

7.
针对动态数据库随时间发生改变的特性,提出了一种新的在动态数据库中挖掘频繁子树的算法,引入树的转变概率、子树期望支持度和子树动态支持度等概念,提出了动态数据库中的支持度计算方法和子树搜索空间,从而解决了数据动态变化的频繁子树挖掘问题。随着子树搜索的进行,算法定义裁剪公式和混合数据结构,能有效地减少子树搜索空间和提高频繁子树的同构速度。实验结果表明,新算法有效可行,且具有较好的运行效率。  相似文献   

8.
基于投影分支的快速频繁子树挖掘算法   总被引:9,自引:1,他引:9  
频繁子树挖掘在生物信息、Web挖掘等很多领域都具有较高的应用价值.在频繁子树挖掘中引入投影分支的概念,并提出基于投影分支的快速频繁子树挖掘算法——FTPB.FTPB算法充分利用树结构本身的特点,在计算投影分支的同时解决树同构的判断问题,扫描数据库后能够根据当前的频繁模式树直接生成新的频繁模式树,可减少数据库的扫描次数和候选模式的搜索空间,从而降低算法复杂度.理论分析和实验结果表明,该算法较其他同类算法相比具有较高的效率,是有效可行的.  相似文献   

9.
一种高效频繁子图挖掘算法   总被引:12,自引:1,他引:11  
李先通  李建中  高宏 《软件学报》2007,18(10):2469-2480
由于在频繁项集和频繁序列上取得的成功,数据挖掘技术正在着手解决结构化模式挖掘问题--频繁子图挖掘.诸如化学、生物学、计算机网络和WWW等应用技术都需要挖掘此类模式.提出了一种频繁子图挖掘的新算法.该算法通过对频繁子树的扩展,避免了图挖掘过程中高代价的计算过程.目前最好的频繁子图挖掘算法的时间复杂性是O(n3·2n),其中,n是图集中的频繁边数.提出算法的时间复杂性是O〔2n·n2.5/logn〕,性能提高了O(√n·logn)倍.实验结果也证实了这一理论分析.  相似文献   

10.
一种挖掘XML文档频繁子树的方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文主要研究从由带标签有序树构成的森林中挖掘嵌入式频繁子树,具体做法是:首先对XML文档进行预处理,生成最简结构树SST,然后从SST中挖掘出频繁子树。本文提出了SSTMiner算法,该算法针对TreeMiner算法存在的瓶颈问题,结合当前所处理的SST的结构特点进行改进,进一步提高了算法执行的效率。实验证明,本文提出的方法能够准确高效地
地挖掘出XML文档中的频繁子树。  相似文献   

11.
频繁模式挖掘是多种数据挖掘应用中的关键问题。以一种高效的频繁模式挖掘算法FP-gowth算法为例,利用关系数据库中的表来存储频繁模式村FP-tree,通过标准SQL语言硬Oracle数据库PL/SQL编程技术实现了这种基于SQL的频繁模式挖掘方法.并给出了该方法较为详细的实现步骤。  相似文献   

12.
关联规则挖掘Apriori算法的研究与改进   总被引:7,自引:1,他引:6  
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联.Apriori算法是关联规则挖掘中的经典算法.然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点.对Apriori算法的原理及效率进行分析,指出了一些不足,并且提出了改进的Apriori_LB算法.该算法基于新的数据结构,改进了产生候选项集的连接方法.在详细阐述了Apriori_LB算法后,对Apriori算法和Apriori_LB算法进行了分析和比较,实验结果表明改进的Apriori_LB算法优于Apriori算法,特别是对最小支持度较小或者项数较少的事务数据库进行挖掘时,效果更加显著.  相似文献   

13.
关联分类具有较高的分类精度和较强的适应性。基于闭频繁项集有效压缩事务及FPL(Frequent Pattern List)简单数据结构等方面的优点,提出了一种关联分类器方法。设计了便于分类的FPL变形模式,引入了有效发现闭频繁项集的签名向量合取操作。将闭频繁项集挖掘方法应用于关联分类,提高了关联分类算法的分类效率及准确率。  相似文献   

14.
关于Lempel-Ziv 77压缩算法及其实现的研究   总被引:3,自引:0,他引:3  
本文在研究著名的LZ77压缩算法的基础上,讨论了对这一算法的种种改进。新的算法同样适用于任何类型的数据文件,而且无论是压缩速度还是压缩效率均好于LZ77算法。我们的算法所用到的工作缓冲区是一个循环缓冲区,不再包括一个输入符号超前缓冲区;结果,匹配过程是边接收输入边进行,无需等待一组输入数据填满超前缓冲区才开始,同时,最大匹配长度也不再受超前缓冲区大小的限制,而且,避免了大量的平移工作缓冲区的操作。另外,还涉及一些其他方面的改进,主要包括改等长压缩码为变长码和引入匹配位置滑动表技术等。本文详细讨论了各种改进及其对算法性能的影响。  相似文献   

15.
基于链接相似度Web挖掘算法的研究与改进   总被引:1,自引:0,他引:1  
在Web挖掘分类模式基础上,研究和分析了基于链接分析的Web结构挖掘算法HITS(Hyperlink induced topic Search)。针对HITS算法在获取拓展集处理过程中只考虑基于根集网页链接出、入网页,不考虑出、入网页相似度的不足之处,提出了一种改进的DS-HITS(Document Similarity hyperlink induced topic search)算法。该算法在拓展集处理过程中引进多种反映网页相似度的权值,从而使获取的网页在核心和权威值方面明显得到改进。最后,基于Webla开源项目初始数据,对比了DS-HITS算法和HITS算法的搜索结果。  相似文献   

16.
为解决大规模医药数据分析中的频繁集挖掘问题,提出一种稳定且具有良好扩展性的并行分布式算法P-FIM.该算法将挖掘任务分割成无相互依赖关系的同构子任务,实现有效的并行计算;并且充分利用Map/Reduce框架和集群环境的优势提高自身的鲁棒性和负载均衡能力.采用最大规模为512万条记录的中医药方剂数据进行算法性能分析实验,其结果表明,该算法在分布式集群环境中表现稳定,而且随着集群规模的增加其加速比接近线性.以P-FIM算法为基础设计实现的中医药数据相关性分析方案,可有效地从大规模临床数据中获得全面、可靠的病、症、药间相关性的信息.  相似文献   

17.
在关联规则挖掘中,主要的问题是如何高效地产生频繁项集。对近年来一些基于十字链表的Apriori算法进行研究和分析,发现它们的候选频繁项集生成方法有很大的改进空间。提出一个基于十字链表的改进算法,优化候选频繁项集的生成方法,减少对事务数据库的扫描,大大提高了挖掘效率。  相似文献   

18.
面向复杂簇的聚类算法研究与实现   总被引:2,自引:0,他引:2  
有效聚类各种复杂的数据对象簇是聚类算法应用干事务对象划分、图像分割、机器学习等方面需要解决的关键技术.在分析与研究现有聚类算法的基础上,提出一种基于密度和自适应密度可达的改进算法.实验证明,该算法能够有效聚类任意分布形状、不同密度、不同尺度的簇;同时,算法的计算复杂度与传统基于密度的聚类算法相比有明显的降低.  相似文献   

19.
分析了当前普遍使用的AVL+Cache路由查找解决方案的不足,提出将新的查找算法MBit-Trie应用于高端路由器设计的构想。通过测试,验证了MBit-Trie在路由查找性能上的优越性,以及应用在高端路由器设计中的可行性。  相似文献   

20.
一种基于任务的机器人全局并行算法研究及实现   总被引:3,自引:0,他引:3  
沈悦明  陈启军 《机器人》2003,25(6):495-500
本文提出了一种基于任务的机器人全局并行算法,结合主从结构的MIMD并行处理平台将机器人控制中的运动学、动力学、控制律等基本计算任务分别进行任务划分,将划分好的子任务统一用工作池方式实现全局的动态调度.采用流水线及集中式动态调度策略,在一个由5个DSP处理器组成的同构型松耦合MIMD并行处理平台上对平面机器人进行了并行实时仿真实验,取得了满意的并行性能指标.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号