首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
分析实际应用中有效访问序列的特点,提出了一种采用自底向上策略快速挖掘最大频繁项集的OUS算法。该算法首先对用户项集进行重叠操作统计浏览次数,然后合并,依据用户给出的最小支持度删除原项集中的非频繁页面元素,并对两两用户项集筛选生成候选频繁项集,最后扫描数据库,统计各个候选频繁项集的支持度计数。实验结果表明,该算法能有效地发现用户最大频繁项集。  相似文献   

2.
张月琴  陈东 《计算机工程》2010,36(22):86-87
提出基于事务矩阵挖掘最大频繁项集的方法AFMI,该方法采取迭代精简事务矩阵的方式求解所有事务中的最大频繁项集,从精简后的事务向量交集的子集中搜索最大频繁项集,并运用逻辑运算和剪枝方法提高挖掘效率。基于AFMI方法,研究挖掘滑动窗口数据流最大频繁项集算法AFMI+,该算法可使用户周期性地挖掘当前窗口中的最大频繁项集。实验结果表明,AFMI和AFMI+算法均具有较好的性能。  相似文献   

3.
基于频繁模式树的约束最大频繁项集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
多数最大频繁项集挖掘算法产生候选项目集的代价很高,而实际应用中用户只关心部分关联规则。针对该问题,提出一种基于频繁模式树的约束最大频繁项集快速挖掘算法。该算法能随时删除不满足约束条件的项集,无需生成候选项目集,由此提高挖掘效率。实验结果证明,该算法的效率优于同类算法。  相似文献   

4.
对现有关联规则更新算法中的增量式更新算法进行分析,发现在决策者优先关注最大频繁项目集的情况下,该算法不能以较少的数据库遍历次数快速获取最大频繁项集。针对该算法的不足,提出一种基于逆向搜索的方式进行关联规则更新的算法。该算法生成新增项集的所有频繁项集,通过将其中最大频繁项集跟原项集中最大频繁项集进行拼接、修剪,从中获得更新后的最大频繁项集。实例结果表明,该算法既降低了关联规则更新过程中对数据库的遍历次数,又实现了优先获取最大频繁项目集。  相似文献   

5.
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。  相似文献   

6.
快速挖掘分布式数据库全局最大频繁项集   总被引:1,自引:0,他引:1  
何波 《控制与决策》2011,26(8):1214-1218
提出一种快速挖掘分布式数据库全局最大频繁项集算法(FMMH).FMMFI算法首先设置了中心节点,并以各个节点构建局部FP-tree,采用挖掘最大频繁项目集算法(DMHA)快速挖掘局部最大频繁项集;然后与中心节点交互以实现数据汇总:最终获得全局最大频繁项集.FMMFI算法采用自上而下的剪枝策略,能大幅减少候选项集,降低通信量.理论分析和实验结果表明,FMMFI算法是有效的.  相似文献   

7.
邵勇  陈波  史宝东  刘长征 《计算机工程》2009,35(19):62-64,68
针对基于支持度变化的最大频繁项集维护问题、频繁项集与最大频繁项集互转换时的维护问题,提出3种相应算法。在挖掘最大频繁项集的过程中不断调节支持度大小,以实现其快速更新。基于最大频繁项集子集的支持计数,将现有最大频繁项集转换为频繁项集。  相似文献   

8.
最大频繁项集挖掘算法存在扫描数据集次数多和候选集规模过大等局限。基于Iceberg概念格模型,提出一种在Iceberg概念格上挖掘最大频繁项集的算法ICMFIA。该算法通过一次扫描数据集构建Iceberg概念格,利用Iceberg概念格中频繁概念之间良好的覆盖关系能快速计算出最大频繁项集所对应的最大频繁概念,所有最大频繁概念的内涵就是所求的最大频繁项集的集合。实验结果表明,该算法具有扫描数据集次数少和挖掘效率高的优点。  相似文献   

9.
邵勇  陈波  史宝东  刘长征 《计算机工程》2009,35(19):62-64,6
针对基于支持度变化的最大频繁项集维护问题、频繁项集与最大频繁项集互转换时的维护问题,提出3种相应算法。在挖掘最大频繁项集的过程中不断调节支持度大小,以实现其快速更新。基于最大频繁项集子集的支持计数,将现有最大频繁项集转换为频繁项集。  相似文献   

10.
最大频繁项集挖掘算法的分析研究   总被引:2,自引:0,他引:2  
本文介绍了频繁项集挖掘的基本情况,用比较的方法通过示例分析、研究了两种最大频繁项集挖掘算法,并指出了最大频繁项集挖掘算法的局限性。进而阐述了最大频繁项集挖掘算法的特点及优化算法的途径。  相似文献   

11.
在关联规则数据挖掘领域中,Apriori算法是这个方面的经典算法,但它仍存在许多弊端,为此在Apriori算法的基础上提出了一种基于有向图链式存储的改进算法,此算法根据数据结构中有向图链式存储的结构,将所有事务全部存入链表,无需多次扫描数据库,只在事务链表中完成候选集和频繁集的寻找工作.此方法能够迅速得到候选集的支持度...  相似文献   

12.
提出了一种可直接用于快速频繁模式挖掘的频繁项目表的概念,并实现了具体的频繁模式增量挖掘方法.在对拒绝服务攻击的入侵检测中证明:与类Apriori方法不同,该方法无需再生成候选集,频繁模式的搜索仅需对频繁项目表上特定项目的支持数进行加法操作,同时每个生成的频繁项目表的容量很小并适于在内存中处理,从而能有效改进算法性能.  相似文献   

13.
基于改进Apriori算法的数据库入侵检测   总被引:3,自引:1,他引:2       下载免费PDF全文
提出基于数据挖掘技术的数据库入侵检测系统,采用改进的Aprioriids算法挖掘行为模式,经过1次扫描数据库即可生成频繁项集。系统具有较细的检测粒度,可在事务级别上检测用户的恶意操作或异常行为。实验结果表明,该系统使频繁项目集的生成效率得到提高,数据库入侵检测系统知识规则库的生成效率得到改善。  相似文献   

14.
基于景点标签的协同过滤推荐   总被引:1,自引:0,他引:1  
针对基于用户社会关系的协同过滤推荐算法有时无法给出目标用户对目标物品的评分的情况,以及基于物品的协同过滤推荐算法中存在的用户对不同类型物品的评分可能不具有可比性的问题,提出了两个基于物品标签的协同过滤推荐算法。这两个算法在计算物品相似度时引入了物品的类型标签信息。在景点评分数据上的实验结果表明:相比基于用户社会关系的协同过滤推荐算法,基于用户社会关系和物品标签的协同过滤推荐算法的准确率和覆盖率提升最高达10%和4%;相比基于物品的协同过滤推荐算法,基于物品和物品标签的协同过滤推荐算法的准确率提升达15%。这说明景点类型标签信息的引入能使得景点的相似度计算更准确。  相似文献   

15.
基于FP-T ree的FP-M ax算法在挖掘最大频繁集时需多次递归建立条件模式树耗费大量存储空间,这大大降低了算法的挖掘效率。提出了一种基于改进FP-T ree的最大频繁集快速挖掘算法-FP-EM ax算法。该算法无需建立条件模式库大大减少了存储空间开销,采用预剪枝策略减少条件模式树的构造次数及子集检测次数,从而算法的挖掘效率大大提高。最后通过实验证明FP-EM ax算法在支持度较小的情况下较之于FP-M ax及同类算法具有更好的性能。  相似文献   

16.
王滔  白似雪 《微计算机信息》2007,23(15):139-140
在web日志挖掘技术基础之上,对网页推荐展开了研究和分析。文中提出了一种DPMFI算法,采用DPMFI算法生成最大频繁项目集,并基于最大频繁项目集来产生推荐网页。  相似文献   

17.
关联规则挖掘中对Apriori算法的一种改进研究   总被引:24,自引:0,他引:24  
刘以安  羊斌 《计算机应用》2007,27(2):418-420
针对Apriori算法寻找频繁项集问题,通过对事务数据库的布尔化表示,提出了一种直接利用布尔矩阵的行向量去搜寻频繁项集的思想。即通过向量的内积运算和判别准则逐步浓缩布尔矩阵的行向量,从而快速、直观地归纳出事务数据库的频繁项集。研究和分析表明,该方法不仅算法简单、只需扫描一次数据库,而且还具有搜索速度快、节省内存空间和处理项目集维数大等优点。对于处理超大型事务数据库和分布式事务数据库,同样也有较好的应用。  相似文献   

18.
In standard frequent item set mining a transaction supports an item set only if all items in the set are present. However, in many cases this is too strict a requirement that can render it impossible to find certain relevant groups of items. By relaxing the support definition, allowing for some items of a given set to be missing from a transaction, this drawback can be amended. The resulting item sets have been called approximate, fault-tolerant or fuzzy item sets. In this paper we present two new algorithms to find such item sets: the first is an extension of item set mining based on cover similarities and computes and evaluates the subset size occurrence distribution with a scheme that is related to the Eclat algorithm. The second employs a clustering-like approach, in which the distances are derived from the item covers with distance measures for sets or binary vectors and which is initialized with a one-dimensional Sammon projection of the distance matrix. We demonstrate the benefits of our algorithms by applying them to a concept detection task on the 2008/2009 Wikipedia Selection for schools and to the neurobiological task of detecting neuron ensembles in (simulated) parallel spike trains.  相似文献   

19.
关联规则挖掘算法介绍   总被引:6,自引:0,他引:6  
数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工具在海量数据中发现模型和数据间的关系。而在大规模事务数据库中,挖掘关联规则是数据挖掘领域的一个非常重要的研究课题。文中介绍了关联规则挖掘的研究情况,描述了经典Apriori算法的实现,并对该算法进行了分析和评价,指出了其不足和原因。描述了FP树挖掘最大频繁项集的算法,通过实例对该算法进行了性能评估,并得到结论:数据库中潜在的最大频繁模式越多,运行时间越长。  相似文献   

20.
现有大部分微阵列数据中频繁闭合项集的挖掘需要事先给定最小支持度,但在实际应用中该最小支持度很难确定。针对该问题,提出top-k频繁闭合项集挖掘算法,基于自顶向下宽度优先搜索策略挖掘项集长度不小于min_l的top-k频繁闭合项集,并对搜索空间进行有效修剪,从而提高搜索速度。实验结果表明,该算法的时间性能在多数情况下优于CARPENTER算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号