共查询到20条相似文献,搜索用时 234 毫秒
1.
分析实际应用中有效访问序列的特点,提出了一种采用自底向上策略快速挖掘最大频繁项集的OUS算法。该算法首先对用户项集进行重叠操作统计浏览次数,然后合并,依据用户给出的最小支持度删除原项集中的非频繁页面元素,并对两两用户项集筛选生成候选频繁项集,最后扫描数据库,统计各个候选频繁项集的支持度计数。实验结果表明,该算法能有效地发现用户最大频繁项集。 相似文献
2.
3.
4.
5.
CHEN Chen 《数字社区&智能家居》2008,(32)
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。 相似文献
6.
快速挖掘分布式数据库全局最大频繁项集 总被引:1,自引:0,他引:1
提出一种快速挖掘分布式数据库全局最大频繁项集算法(FMMH).FMMFI算法首先设置了中心节点,并以各个节点构建局部FP-tree,采用挖掘最大频繁项目集算法(DMHA)快速挖掘局部最大频繁项集;然后与中心节点交互以实现数据汇总:最终获得全局最大频繁项集.FMMFI算法采用自上而下的剪枝策略,能大幅减少候选项集,降低通信量.理论分析和实验结果表明,FMMFI算法是有效的. 相似文献
7.
8.
9.
10.
最大频繁项集挖掘算法的分析研究 总被引:2,自引:0,他引:2
本文介绍了频繁项集挖掘的基本情况,用比较的方法通过示例分析、研究了两种最大频繁项集挖掘算法,并指出了最大频繁项集挖掘算法的局限性。进而阐述了最大频繁项集挖掘算法的特点及优化算法的途径。 相似文献
11.
在关联规则数据挖掘领域中,Apriori算法是这个方面的经典算法,但它仍存在许多弊端,为此在Apriori算法的基础上提出了一种基于有向图链式存储的改进算法,此算法根据数据结构中有向图链式存储的结构,将所有事务全部存入链表,无需多次扫描数据库,只在事务链表中完成候选集和频繁集的寻找工作.此方法能够迅速得到候选集的支持度... 相似文献
12.
提出了一种可直接用于快速频繁模式挖掘的频繁项目表的概念,并实现了具体的频繁模式增量挖掘方法.在对拒绝服务攻击的入侵检测中证明:与类Apriori方法不同,该方法无需再生成候选集,频繁模式的搜索仅需对频繁项目表上特定项目的支持数进行加法操作,同时每个生成的频繁项目表的容量很小并适于在内存中处理,从而能有效改进算法性能. 相似文献
13.
14.
基于景点标签的协同过滤推荐 总被引:1,自引:0,他引:1
针对基于用户社会关系的协同过滤推荐算法有时无法给出目标用户对目标物品的评分的情况,以及基于物品的协同过滤推荐算法中存在的用户对不同类型物品的评分可能不具有可比性的问题,提出了两个基于物品标签的协同过滤推荐算法。这两个算法在计算物品相似度时引入了物品的类型标签信息。在景点评分数据上的实验结果表明:相比基于用户社会关系的协同过滤推荐算法,基于用户社会关系和物品标签的协同过滤推荐算法的准确率和覆盖率提升最高达10%和4%;相比基于物品的协同过滤推荐算法,基于物品和物品标签的协同过滤推荐算法的准确率提升达15%。这说明景点类型标签信息的引入能使得景点的相似度计算更准确。 相似文献
15.
纪怀猛 《计算机与数字工程》2014,(6):959-963
基于FP-T ree的FP-M ax算法在挖掘最大频繁集时需多次递归建立条件模式树耗费大量存储空间,这大大降低了算法的挖掘效率。提出了一种基于改进FP-T ree的最大频繁集快速挖掘算法-FP-EM ax算法。该算法无需建立条件模式库大大减少了存储空间开销,采用预剪枝策略减少条件模式树的构造次数及子集检测次数,从而算法的挖掘效率大大提高。最后通过实验证明FP-EM ax算法在支持度较小的情况下较之于FP-M ax及同类算法具有更好的性能。 相似文献
16.
在web日志挖掘技术基础之上,对网页推荐展开了研究和分析。文中提出了一种DPMFI算法,采用DPMFI算法生成最大频繁项目集,并基于最大频繁项目集来产生推荐网页。 相似文献
17.
关联规则挖掘中对Apriori算法的一种改进研究 总被引:24,自引:0,他引:24
针对Apriori算法寻找频繁项集问题,通过对事务数据库的布尔化表示,提出了一种直接利用布尔矩阵的行向量去搜寻频繁项集的思想。即通过向量的内积运算和判别准则逐步浓缩布尔矩阵的行向量,从而快速、直观地归纳出事务数据库的频繁项集。研究和分析表明,该方法不仅算法简单、只需扫描一次数据库,而且还具有搜索速度快、节省内存空间和处理项目集维数大等优点。对于处理超大型事务数据库和分布式事务数据库,同样也有较好的应用。 相似文献
18.
Christian Borgelt Christian Braune Tobias K?tter Sonja Grün 《Soft Computing - A Fusion of Foundations, Methodologies and Applications》2012,16(5):903-917
In standard frequent item set mining a transaction supports an item set only if all items in the set are present. However, in many cases this is too strict a requirement that can render it impossible to find certain relevant groups of items. By relaxing the support definition, allowing for some items of a given set to be missing from a transaction, this drawback can be amended. The resulting item sets have been called approximate, fault-tolerant or fuzzy item sets. In this paper we present two new algorithms to find such item sets: the first is an extension of item set mining based on cover similarities and computes and evaluates the subset size occurrence distribution with a scheme that is related to the Eclat algorithm. The second employs a clustering-like approach, in which the distances are derived from the item covers with distance measures for sets or binary vectors and which is initialized with a one-dimensional Sammon projection of the distance matrix. We demonstrate the benefits of our algorithms by applying them to a concept detection task on the 2008/2009 Wikipedia Selection for schools and to the neurobiological task of detecting neuron ensembles in (simulated) parallel spike trains. 相似文献
19.
关联规则挖掘算法介绍 总被引:6,自引:0,他引:6
数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工具在海量数据中发现模型和数据间的关系。而在大规模事务数据库中,挖掘关联规则是数据挖掘领域的一个非常重要的研究课题。文中介绍了关联规则挖掘的研究情况,描述了经典Apriori算法的实现,并对该算法进行了分析和评价,指出了其不足和原因。描述了FP树挖掘最大频繁项集的算法,通过实例对该算法进行了性能评估,并得到结论:数据库中潜在的最大频繁模式越多,运行时间越长。 相似文献