首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
秦东霞  姚遥 《电脑学习》2012,2(1):31-34
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。  相似文献   

2.
应用于入侵检测系统的报警关联的改进Apriori算法   总被引:2,自引:1,他引:1  
王台华  万宇文  郭帆  余敏 《计算机应用》2010,30(7):1785-1788
在众多的关联规则挖掘算法中,Apriori算法是最为经典的一个,但Apriori算法有以下缺陷:需要扫描多次数据库、生成大量候选集以及迭代求解频繁项集。提出了一种一步交集操作得到最大频繁项目集的方法。支持度由交集的次数得到而无需再去扫描事务数据库,将其中一些属性进行编号能减少存储空间且方便搜索候选集列表,从而提高算法的效率。最后针对入侵检测系统形成关联规则。实验结果表明,优化后的算法能有效地提高关联规则挖掘的效率。  相似文献   

3.
关联规则挖掘是数据挖掘研究的重要分支。发现频繁项目序列集又是关联规则挖掘中的一个关键阶段。十几年来,许多发现频繁项目集的算法已经被提出。近几年来,人们更关注于在大型数据集中高效发现频繁项目集的算法研究,特别是在减少数据库的扫描次数、提高内存利用率等方面。该文提出一个称为DFISP的算法,它是基于数据分段扫描策略的,并且只需两次数据库扫描即可完成频繁项目序列集的生成。实验表明,DFISP算法是稳定而高效的。  相似文献   

4.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

5.
数据挖掘中的关联分析技术旨在发现大量数据项集之间有趣的关联关系,其核心问题是寻找频繁项集。针对传统的基于矩阵的关联挖掘算法中矩阵规模和事务数据库大小相关,在处理超大型事务数据库时,仍会存在内存瓶颈的问题,提出了一个矩阵规模和事务数据库大小无关、通过矩阵约束预挖掘后验证的频繁项集发现算法。实验结果显示,该算法提高了频繁项集的挖掘速度。  相似文献   

6.
在图像关联规则挖掘的某些领域,要求提取出具有较高置信度的关联规则,同时对支持度的要求相对较低。提出了一种在兼顾支持度的情况下挖掘出高置信度的图像关联规则的方法。为了便于有效地提取图像关联规则,使用了名为bSQ(bit Sequential)的一种栅格数据格式。而后采取“逐层搜索”的方法,建立规则树,避免了传统方法在处理低支持度时产生的大量频繁项集。最后通过多图像关联规则提取优先级和图像数据立方体等技术在多幅图像中提取基于象素级的关联规则。通过实验证明,该方法能有效地提取图像数据高置信度关联规则,方法具有可行性。  相似文献   

7.
One fundamental problem for visualizing frequent itemsets and association rules is how to present a long border of frequent itemsets in an itemset lattice. Another problem comes from the lack of an effective visual metaphor to represent many-to-many relationships. This work proposes an approach for visualizing frequent itemsets and many-to-many association rules by a novel use of parallel coordinates. An association rule is visualized by connecting items in the rule, one item on each parallel coordinate, with continuous polynomial curves. In the presence of item taxonomy, each coordinate can be used to visualize an item taxonomy tree which can be expanded or shrunk by user interaction. This user interaction introduces a border, which separates displayable itemsets from nondisplayable ones, in the generalized itemset lattice. Only those itemsets that are both frequent and displayable are considered to be displayed. This approach of visualizing frequent itemsets and association rules has the following features: 1) It is capable of visualizing many-to-many rules and itemsets with many items. 2) It is capable of visualizing a large number of itemsets or rules by displaying only those ones whose items are selected by the user. 3) The closure properties of frequent itemsets and association rules are inherently supported such that the implied ones are not displayed. Usefulness of this approach is demonstrated through examples.  相似文献   

8.
针对焦虑抑郁患者的早期预防和诊断需求,将关联规则挖掘和压缩方法应用于焦虑抑郁障碍因素的研究,在病人数据中挖掘出与焦虑抑郁障碍相关性较高的因素集合。单独使用频繁项集挖掘算法会产生过多的频繁项集和关联规则,导致其实用性大为降低。对收集的病人数据进行预处理,采用FP-growth算法,挖掘出预处理后数据中的频繁项集,采用最新改进Bottom-Up Summarization(BUS)算法,对挖掘出的频繁项集进行压缩。同时将最后得到的关联规则与未压缩得到的关联规则、原始BUS算法及Top-K算法压缩后得到的关联规则进行对比。实验结果表明,使用改进BUS算法得到的规则数量适中、信息冗余较少而且覆盖的人群具有更高的患病风险。  相似文献   

9.
Incremental mining has attracted the attention of many researchers due to its usefulness in online applications. Many algorithms have thus been proposed for incrementally mining frequent itemsets. Maintaining a frequent-itemset lattice (FIL) is difficult for databases with large numbers of frequent itemsets, especially huge databases, due to the storage of links of nodes in the lattice. However, generating association rules from a FIL has been shown to be more effective than traditional methods such as directly generating rules from frequent itemsets or frequent closed itemsets. Therefore, when the number of frequent itemsets is not huge (i.e., they can be stored in the lattice without excessive memory overhead), the lattice-based approach outperforms approaches which mine association rules from frequent itemsets/frequent closed itemsets. However, incremental algorithms for building FILs have not yet been proposed. This paper proposes an effective approach for the maintenance of a FIL based on the pre-large concept in incremental mining. The building process of a FIL is first improved using two proposed theorems regarding the paternity relation between two nodes in the lattice. An effective approach for maintaining a FIL with dynamically inserted data is then proposed based on the pre-large and the diffset concepts. The experimental results show that the proposed approach outperforms the batch approach for building a FIL in terms of execution time.  相似文献   

10.
目前已提出了许多频繁项集更新算法,但是它们往往需要至少扫描一次原数据库,且会丢失一些重要规则。为此,文章提出了一种新的快速更新频繁项集算法CUFIA(Classifying Update Frequent Itemsets Algorithm),该算法通过对新增事务数据分区后快速逐一扫描,获得频繁项集,并将它们归入3个不同的类别,从而不需要扫描原数据库,便可有效地挖掘出其中的频繁项集,且不丢失重要规则。研究表明,该算法具有很好的可测量性。  相似文献   

11.
本文分析了基于关联规则的Apriori算法及其存在的缺陷,提出了一种将聚类分析和关联规则相结合的联合数据挖掘算法。在大项集数量相等时,联合挖掘算法明显优于Apriori算法。  相似文献   

12.
数据隐私问题引起人们的广泛关注,如何在分布式数据库的环境下挖掘关联规则成为研究的热点。该文探讨在垂直划分数据库中,如何在保护各方隐私数据的前提下挖掘全局频繁项集。各分布式数据库包含全局数据库的一部分属性,共同参与全局挖掘,同时各方不向外泄漏隐私数据。在商品服务器模型的研究基础上,提出一种基于可逆方阵的加密协议,对于垂直划分的分布式数据库,该协议具有较好的隐蔽性、高效性和准确性。  相似文献   

13.
负关联规则增量更新算法   总被引:1,自引:1,他引:0       下载免费PDF全文
讨论负关联规则的更新问题。与正关联规则增量更新不同,负关联规则不仅存在于频繁项集中,更多存在于非频繁项集中。针对该问题提出一种负关联规则增量更新算法NIUA,利用改进的Apriori算法以及集合的性质挖掘出频繁、非频繁项集和负关联规则。实验结果表明,该算法是可取的。  相似文献   

14.
冯洁  陶宏才 《微计算机信息》2007,23(18):164-166
关联规则的发现是数据挖掘的一个重要方面,产生频繁项集是其中一个关键步骤。提出了一种基于十字链表快速挖掘频繁项集的算法,该算法只需扫描一次数据库,充分利用已有信息产生频繁项集,无需存储候选项集。通过与其它一些算法比较,说明该算法有更好的性能。  相似文献   

15.
Apriori算法中频繁项集挖掘实现研究   总被引:3,自引:0,他引:3  
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。  相似文献   

16.
《Information Systems》2003,28(7):691-707
This paper proposes a new strategy for maintaining association rules in dynamic databases. This method uses weighting technique to highlight new data. Our approach is novel in that recently added transactions are given higher weights. In particular, we look at how frequent itemsets can be maintained incrementally. We propose a competitive model to ‘promote’ infrequent itemsets to frequent itemsets, and to ‘degrade’ frequent itemsets to infrequent itemsets incrementally. This competitive strategy can avoid retracing the whole data set. We have evaluated the proposed method. The experiments have shown that our approach is efficient and promising.  相似文献   

17.
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。  相似文献   

18.
赵静 《电脑开发与应用》2012,25(7):16-17,20
A priori算法是经典的关联规则挖掘算法,它利用逐层搜索的迭代方法完成频繁模式的挖掘工作,反复进行连接剪枝操作,思路简单易操作,但也伴随着产生庞大候选集,多次扫描数据库产生巨大I/O开销的问题,提出一种改进算法:基于矩阵的关联规则挖掘算法,同A priori算法比较,该算法只需扫描一遍数据库,就可直接查找k-频繁项集,尤其是当频繁项集较高的时候,该算法具有更高的执行效率,在大数据量的情况下更具有可行性。  相似文献   

19.
对现有关联规则更新算法中的增量式更新算法进行分析,发现在决策者优先关注最大频繁项目集的情况下,该算法不能以较少的数据库遍历次数快速获取最大频繁项集。针对该算法的不足,提出一种基于逆向搜索的方式进行关联规则更新的算法。该算法生成新增项集的所有频繁项集,通过将其中最大频繁项集跟原项集中最大频繁项集进行拼接、修剪,从中获得更新后的最大频繁项集。实例结果表明,该算法既降低了关联规则更新过程中对数据库的遍历次数,又实现了优先获取最大频繁项目集。  相似文献   

20.
关联规则中频繁项集数量庞大的问题是关联规则可视化要解决的一个主要问题,本文介绍了一种基于平行坐标系和项目分类树的频繁项集和关联规则可视化方法。首先,在频繁项集中设置显示边界,利用频繁项集的闭包特性,实现对大的频繁项集的剪枝;然后,结合overview+detail的视点控制技术,通过交互,由用户选择感兴趣的某一节点上的频繁项集,在de-tail窗口中详细显示,从而实现人机交互的频繁项集和关联规则可视化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号