首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
刘萍  别荣芳 《计算机应用》2005,25(6):1376-1378,1381
生成关联规则算法FAS,能够迅速区分某频繁项集的所有关联规则的前件和后件,生成给定频繁项目集的关联规则。基于FAS算法,设计并实现了一个基于最近挖掘结果的数据挖掘系统AR—Miner。该系统主要包括数据预处理、频繁集初始计算、频繁集更新计算、频繁集选择、关联规则生成五部分,不仅实现了关联规则挖掘的可视化和生成结果按“支持度一可信度”形式的可视化,还为基于频繁集的交互式挖掘提供了方便、友好的界面。  相似文献   

2.
针对现有的基于垂直格式挖掘频繁项集采用正交的方式两两进行比较耗费大量时间和产生的Tid集可能很大浪费存储空间的问题,提出了一种基于三角矩阵和差集的垂直数据格式挖掘频繁项集的挖掘算法。该算法利用差集解决了对稠密数据集进行频繁项集挖掘时的Tid集可能很大的问题,并且利用一种前提方法判断是否有必要连接产生候选频繁k+1项集,减少时间的开销,而且在存储上用三角矩阵的数据结构可以进一步节省存储空间。实验结果表明,本算法大大减少挖掘频繁项集时间和空间内存的开销。  相似文献   

3.
关联规则挖掘过程中,大量候选项集的产生成为影响挖掘效率提高的一个主要因素。针对这一问题,提出了一种基于树结构的关联规则挖掘算法。该算法运用关联矩阵将频繁项集映射到树结构中存储,并利用树中包含部分频繁项集的子树,逐步拓展成包含所有频繁项集的树结构;其不仅提高了候选项集的生成效率,而且极大地减少了候选项集的产生数量。实验证明,该算法相比同类算法是快速有效的。  相似文献   

4.
基于集合枚举树的关联规则生成算法   总被引:2,自引:0,他引:2  
在经典算法中由频繁项集生成关联规则需要生成频繁项集的所有非空子集作为候选后件集。李雄飞对此做出改进,提出逐层搜索后件的宽度优先算法。求下集极大元的Boundary算法也可用于求所有关联规则后件。论文提出一个深度优先算法GRSET(GenerateRulesbyusingSet-EnumerationTree),该算法利用集合枚举树,按照深度优先的方法逐一找出所有关联规则后件并得到相应的关联规则。通过实验对这三种算法进行比较,结果显示GRSET算法效率较高。  相似文献   

5.
关联规则反映了大量数据中项集间的相互依存性和关联性。Apriori算法是关联规则挖掘中的经典算法,目前已有很多的改进版本,但大多存在多次扫描数据库,项集生成瓶颈和模式匹配频繁的问题,算法效率比较低。本文深入的分析研究关联规则Apriori算法,改进候选频繁项目集的连接和剪枝策略,改进对事务的处理方式,减少模式匹配所需的时间开销,并给出了改进算法。  相似文献   

6.
崔建  李强  杨龙坡 《计算机科学》2011,38(4):216-220
为进一步解决对大型事务数据库进行关联规则挖掘时产生的CPU时间开销大和I/O操作频繁的问题,给出了一种基于垂直数据分布的改进关联规则挖掘算法,称为VARMLDb算法。该算法首先有效地把数据库分为内存可以满足要求的若干划分,然后结合有向无环图和垂直数据形式diffse、差集来存储和计算频繁项集,极大地减少了存储中间结果所需的内存大小,解决了传统垂直数据挖掘算法对稠密数据库挖掘效率低下的问题,使该算法可有效地适用于大型稠密数据库的关联规则挖掘。整个算法吸取CARMA算法的优势,只需扫描两次数据库便可完成挖掘过程。实验结果表明该算法是正确的,在大型稠密数据库中,VARMLDb算法具有较高的执行效率。  相似文献   

7.
基于图的关联规则改进算法   总被引:1,自引:0,他引:1  
关联规则挖掘是数据挖掘研究的最重要课题之一。基于图的关联规则挖掘DLG算法通过一次扫描数据库构建关联图,然后遍历该关联图产生频繁项集,有效地提高了关联规则挖掘的性能。在分析该算法基本原理基础上,提出了一种改进的算法—DLG#。改进算法在关联图构造同时构造项集关联矩阵,在候选项集生成时结合关联图和Apriori性质对冗余项集进行剪枝,减少了候选项集数,简化了候选项集的验证。比较实验结果表明,在不同数据集和不同支持度阈值下,改进算法都能更快速的发现频繁项集,当频繁项集平均长度较大时性能提高明显。  相似文献   

8.
关联规则挖掘中最主要的工作是如何高效地挖掘频繁项集。目前在单机平台上,由于计算量大等原因,大数据集上的关联规则挖掘很难得到理想结果。在分析现有频繁项集挖掘算法的基础上,结合Eclat和dEclat挖掘算法优点,针对大数据集和片上多核共享内存计算环境,提出一种高效的并行频繁项集挖掘算法PEclat,算法实现了任务级并行挖掘频繁项集,并在大数据集上进行了多项测试。实验结果表明,无论数据稠密程度如何,该算法均能取得较好的性能。  相似文献   

9.
传统的关联规则挖掘Apriori算法时间开销大,针对Apriori算法的不足之处,基于关系代数理论,利用关系矩阵及相关运算给出了搜索频繁项集的基于关系代数理论的关联规则挖掘(ORAR)算法.利用关系矩阵只需扫描数据库一次,以降低算法运行时间,挖掘频繁项集,最后通过仿真实验比较这两个算法的执行时间,讨论了数据样本量和最小支持度对算法性能的影响.通过大量的仿真实验证明改进的ORAR算法是高效的,减少了挖掘数据集中频繁项集的运行时间.  相似文献   

10.
使用垂直数据格式挖掘频繁项集   总被引:4,自引:0,他引:4  
陈伟 《微型机与应用》2011,30(18):6-7,13
关联规则是数据挖掘的主要技术之一,它是描述数据库中一组数据项之间的某种潜在关系的规则。关联规则挖掘算法——Apriori算法,主要过程是对频繁项集的挖掘,而在对频繁项集的挖掘中首先要生成候选频繁项集,然后再从候选集中确定出满足最小支持度计数的频繁项集,这会耗费大量的CPU开销。使用垂直数据格式挖掘频繁项集可避免候选项目集的求解。  相似文献   

11.
陈文 《计算机工程》2010,36(13):59-61
针对交易数据库中数据项重要性不同的现象,引入加权支持度和最小支持期望的概念,提出一种基于关联图的加权关联规则模型,并在该模型基础上,设计了改进的加权关联规则挖掘算法。该算法扫描数据库仅一次,采用关联图存储频繁2项集信息,通过构建基于图的剪枝策略,减少验证频繁项集的计算量,有效提高加权频繁项集的生成效率。  相似文献   

12.
基于支持度和置信度模型的关联规则剪枝算法会挖掘出很多无趣规则。针对该问题,提出一种正相关性指导下的关联规则剪枝算法。利用全置信度和提升度构造一个正相关性评价函数,以此对频繁项集进行剪枝。实验结果表明,该算法能减少无趣关联规则数量,提升挖掘结果质量,缩短挖掘时间。  相似文献   

13.
针对目前时态关联规则研究中存在的挖掘效率不高、规则可解释性低、未考虑项集时间关联关系等问题,在原有相关研究的基础上,提出一种新的基于频繁项集树的时态关联规则挖掘算法.通过对时间序列数据进行降维离散化处理,采用向量运算生成频繁项集,提高频繁项集挖掘效率.考虑到项集之间的时态关系以及树结构的优势,提出一种新的频繁项集树结构挖掘时态关联规则,其挖掘频繁项集与树结构构建同时进行,无需产生候选项集,提高了规则挖掘效率.实验表明,对比于其他算法,所提出算法在挖掘效率和规则解释性方面效果更好,具有较好的应用前景.  相似文献   

14.
关联规则挖掘作为近年来的研究热点之一,其经典算法Apriori算法因需要多次扫描数据库且会产生大量候选项集,严重影响了关联规则的挖掘效率.在此基础上提出了一种基于矩阵压缩的加权关联规则挖掘算法,只需扫描一次数据库,并将其转换为0-1矩阵,根据相关性质对矩阵进行压缩,从而降低了算法执行过程中的计算量;同时,考虑到项目的重要性,采取加权的方法,用求概率的方式设置项目属性的权值.同Apriori算法相比,本算法在挖掘过程中能直接查找高阶频繁项集.实验结果表明,本算法能有效提高关联规则的挖掘效率.  相似文献   

15.
赵静 《电脑开发与应用》2012,25(7):16-17,20
A priori算法是经典的关联规则挖掘算法,它利用逐层搜索的迭代方法完成频繁模式的挖掘工作,反复进行连接剪枝操作,思路简单易操作,但也伴随着产生庞大候选集,多次扫描数据库产生巨大I/O开销的问题,提出一种改进算法:基于矩阵的关联规则挖掘算法,同A priori算法比较,该算法只需扫描一遍数据库,就可直接查找k-频繁项集,尤其是当频繁项集较高的时候,该算法具有更高的执行效率,在大数据量的情况下更具有可行性。  相似文献   

16.
Generally speaking, to implement Apriori-based association rule mining in hardware, one has to load candidate itemsets and a database into the hardware. Since the capacity of the hardware architecture is fixed, if the number of candidate itemsets or the number of items in the database is larger than the hardware capacity, the items are loaded into the hardware separately. The time complexity of those steps that need to load candidate itemsets or database items into the hardware is in proportion to the number of candidate itemsets multiplied by the number of items in the database. Too many candidate itemsets and a large database would create a performance bottleneck. In this paper, we propose a HAsh-based and Pipelined (abbreviated as HAPPI) architecture for hardware- enhanced association rule mining. We apply the pipeline methodology in the HAPPI architecture to compare itemsets with the database and collect useful information for reducing the number of candidate itemsets and items in the database simultaneously. When the database is fed into the hardware, candidate itemsets are compared with the items in the database to find frequent itemsets. At the same time, trimming information is collected from each transaction. In addition, itemsets are generated from transactions and hashed into a hash table. The useful trimming information and the hash table enable us to reduce the number of items in the database and the number of candidate itemsets. Therefore, we can effectively reduce the frequency of loading the database into the hardware. As such, HAPPI solves the bottleneck problem in a priori-based hardware schemes. We also derive some properties to investigate the performance of this hardware implementation. As shown by the experiment results, HAPPI significantly outperforms the previous hardware approach and the software algorithm in terms of execution time.  相似文献   

17.
一种基于矩阵的强关联规则生成算法*   总被引:5,自引:0,他引:5  
针对Apriori算法扫描数据库的I/O代价和候选项集数目较多等问题,提出一种基于矩阵的强关联规则生成算法,算法通过将事务数据库转化为0-1矩阵后对项集按照支持度计数非递减顺序排列,从而减少候选项集的产生,同时实现置信度的高效计算。通过对实例和大数据量数据库的分析表明,该方法是有效的。  相似文献   

18.
基于矩阵的频繁项集挖掘算法   总被引:9,自引:3,他引:6       下载免费PDF全文
如何高效地挖掘频繁项集是关联规则挖掘的主要问题。该文根据集合论和矩阵理论,提出一种基于矩阵的频繁项集挖掘算法。该算法只需扫描数据库一次,就能把所有事务转化为矩阵的行,把所有项和项集转化为矩阵的列,在对矩阵操作时能一次性产生所有频繁项集,且当支持度阈值改变时无需重新扫描数据库。实验结果表明,该算法的挖掘效率高于Apriori算法。  相似文献   

19.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。  相似文献   

20.
A new approach to online generation of association rules   总被引:6,自引:0,他引:6  
We discuss the problem of online mining of association rules in a large database of sales transactions. The online mining is performed by preprocessing the data effectively in order to make it suitable for repeated online queries. We store the preprocessed data in such a way that online processing may be done by applying a graph theoretic search algorithm whose complexity is proportional to the size of the output. The result is an online algorithm which is independent of the size of the transactional data and the size of the preprocessed data. The algorithm is almost instantaneous in the size of the output. The algorithm also supports techniques for quickly discovering association rules from large itemsets. The algorithm is capable of finding rules with specific items in the antecedent or consequent. These association rules are presented in a compact form, eliminating redundancy. The use of nonredundant association rules helps significantly in the reduction of irrelevant noise in the data mining process  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号