首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对关联规则挖掘中经典Apriori算法由于多次扫描数据、产生大量候选集及产生候选集时连接次数多等缺陷,导致效率较低。文中提出删除部分特殊事务,减少扫描数据次数。在生成候选k-项集前,对频繁k-1项集进行约简,减少连接次数和候选k-项集数,对Apriori算法进行改进。并将改进的Apriori算法用于试题分析中,得出试题之间的关联关系。实例表明,改进后的算法在效率上优于Apriori算法。  相似文献   

2.
在分析Apriori算法时间开销的基础上提出了一种优化的Apriori算法,它通过垂直数据布局并结合有效的链表结构减少了对数据库的扫描次数,通过按支持度大小升序排序减少了候选项集的数量,利用排序后项集的有序性减少了连接次数,有效减少了时间开销,从而提高了算法效率.实验结果验证了优化算法的可行性和有效性.  相似文献   

3.
在对现有增量关联规则更新算法进行讨论的基础上,针对只关注分类预测结果中的某些特定类别的应用,提出了一个改进算法.该算法通过对类别结果的限制,有效减少了算法在多维增量关联规则挖掘过程中扫描数据库的次数及使用的候选谓词集表中记录的个数,使算法具有更优的空间复杂度、更高的结果聚焦度.  相似文献   

4.
关联规则的研究是数据挖掘中的重要问题,如何高效地发现频繁项集是关联规则研究中的关键问题.根据数据库事务的统计性规律,在最大频繁项集发现算法Apriori及其变种算法的基础上,提出一种新的基于层次的最大频繁项集的发现算法.首先从整体上判断候选集的频繁性,然后在发现最大频繁项集的过程中,通过引入整体性策略、排序策略、最小策略有效地减少了候选集与数据库事务之间的比较次数.实验结果表明,采用该算法处理数据库事务数量大的最大频繁项集的发现任务,其效率相比Apriori算法有显著的提高.  相似文献   

5.
基于候选项集个数上阶的增量式关联规则更新算法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种有效的增量式关联规则挖掘算法IAR,算法的特点在于:提出并采用了基于候选项集个数上阶的选择扫描数据库的机制,可有效减少数据库的扫描次数;算法是一种通用的增量式算法,提出了最小支持度和数据库均改变时,增量式挖掘中的重要性质,从而可充分利用上一次挖掘的结果,有效减少候选项集的数目.并且提出了基于组合数学和项集等价类理论的计算候选项集个数的上阶的方法.通过大量的数据实验,表明算法的效率比已有的算法有了很大提高.  相似文献   

6.
Apriori算法是经典的关联规则挖掘算法之一。该算法可以很好地挖掘关联规则,通过连接步和剪枝步从频繁项集中获取候选项集,但产生大量的候选项集,这就需要重复扫描数据库,大大增加算法运行时间。文中提出一种基于矩阵的改进算法,通过事务矩阵和候选项集项目矩阵相乘的矩阵操作来改进频繁扫描数据库的问题。事务数组的建立可以删除不能生成下一频繁项集的事务,删除不必要的项,针对频繁项集的产生过程优化Apriori算法的连接步和修剪步。在不同的数据集下通过实验验证改进算法不仅能准确地挖掘出频繁项集而且大大地缩短挖掘时间。  相似文献   

7.
关联规则的研究是数据挖掘中的重要问题,如何高效地发现频繁项集是关联规则研究中的关键问题。根据数据库事务的统计性规律,在最大频繁项集发现算法Apriori及其变种算法的基础上,提出一种新的基于层次的最大频繁项集的发现算法。首先从整体上判断候选集的频繁性,然后在发现最大频繁项集的过程中,通过引入整体性策略、排序策略、最小策略有效地减少了候选集与数据库事务之间的比较次数。实验结果表明,采用该算法处理数据库事务数量大的最大频繁项集的发现任务.其效率相比Aoriori算法有显著的提高。  相似文献   

8.
《现代电子技术》2019,(19):90-94
传统Apriori挖掘算法需多次扫描数据库、多次连接频繁项集,导致挖掘效率较低,为此对Apriori挖掘算法加以改进,设计一种新的Apriori挖掘算法用于音乐节目分类。改进的Apriori挖掘算法采用莱特准则对音频数据进行野值与噪声平滑处理,改进Apriori挖掘算法的音频数据库映射令两个线性表分别负责音频数据存储和对应项存储,音频数据库扫描次数降为一次;改进Apriori挖掘算法的连接次数无需对不具备交运算能力的元素进行交运算操作,减少频繁项集连接次数。基于改进频繁项集Apriori挖掘算法挖掘频繁项集、生成音频数据关联规则,基于关联规则集构建分类器,实现音乐节目分类。实验结果显示,改进Apriori挖掘算法用于音乐节目分类的效率优势突出,准确度高。  相似文献   

9.
最大频繁序列挖掘是数据挖掘的重要内容之一.在深入分析频繁序列特点以及已有序列挖掘算法的基础上,提出一种新的最大序列挖掘算法Huffman-MaxSeq.与传统的"候选最大频繁序列集生成——测试"思路不同,该算法采用"边生成候选序列边测试"的思想,从而有效地减少了候选序列的生成.该算法基于构造哈夫曼树(最优树)的方法,对每个序列赋予权值,按权值的大小选取序列,连接生成新的候选频繁序列,再产生最大频繁序列.  相似文献   

10.
为了解决数据挖掘中关联规则Apriori算法存在的缺陷,提出了一种全新的基于对候选项集处理的改进算法。该算法主要采用一次扫描数据库和对候选项集进行计数处理的方法,实现了减少执行时间以及计算量的目的。实际应用表明,改进后的Apriori算法具有操作简便、测试准确的特点,达到了提高数据挖掘效率和准确性的要求。  相似文献   

11.
数据挖掘是指从大量数据中发现潜在、有用知识的过程。关联规则是数据挖掘的一个主要研究内容,而如何提高挖掘算法的效率是关联规则数据挖掘的核心问题。Apriori算法是关联规则挖掘的经典算法,但是在实际应用Apriori算法的时间空间开销都很大。针对Apriori算法的局限性,从实际应用出发提出了多最小支持度算法,一方面降低候选项目集中候选项的数量;另一方面减少扫描数据库的次数。这种算法不仅降低了I/O负荷,而且减少了时间开销,具有较高的效率。  相似文献   

12.
关联规则快速聚焦算法研究与实现   总被引:1,自引:1,他引:0  
提出了一种实用的快速聚焦关联规则更新算法。在需要反复调整最小支持度的情况下,如何充分利用以往挖掘过程中的信息,避免多次扫描数据集;在如何有针对性的产生候选项集,从而减少候选集的规模;在如何提高候选项集的支持事务计数的效率等方面进行了研究,给出了算法的具体实现。通过分析,本算法是可行的。  相似文献   

13.
关联规则现在已成为数据挖掘领域中非常重要的研究课题,用于发现隐藏在大型数据集中的令人感兴趣的联系。Apriori算法作为第一个关联规则挖掘算法,开创性地使用了基于支持度的剪枝技术,系统地控制了候选项集的指数增长。但是,Apriori算法仍然存在着频繁扫描数据库和产生大量候选项集的缺点。鉴于此,提出了用一个整型或整型数组来代替一项事务集和一项候选项集,通过数据压缩,可以一次性将海量数据载入内存,减少了磁盘I/O负载,并通过位运算与计算海明距离达到计算支持度的目的,同时使用了若干优化方法。  相似文献   

14.
冯桂  黄君婷 《信号处理》2015,31(1):73-79
多视点视频带来了更真实生动的画面感,但同时也需要更大的数据量。本文对多视点视频编码模型JMVC中采用的模式选择技术编码计算量大的问题,通过分析和研究当前宏块的模式与相邻的已编码宏块及参考帧相应位置宏块模式间的关系,利用宏块模式间的相关性,对当前编码宏块的模式选择算法进行了优化,减少部分细小块的分割及搜索。实验结果表明,在其重建视频质量及码率开销基本不变的前提下,改进算法对运动较平缓的立体视频序列效果较好,较JMVC模型中的算法对全部测试序列的平均编码时间减少了约67%,而对运动较平缓序列的编码时间减少达73%。   相似文献   

15.
Mining traffic to identify the dominant flows sent over a given link, over a specified time interval, is a valuable capability with applications to traffic auditing, simulation, visualization, as well as anomaly detection. Recently, Estan advanced a comprehensive data mining structure tailored for networking data—a parsimonious, multidimensional flow hierarchy, along with an algorithm for its construction. While they primarily targeted offline auditing, use in interactive traffic visualization and anomaly/attack detection will require real-time data mining. We suggest several improvements to Estan 's algorithm that substantially reduce the computational complexity of multidimensional flow mining. We also propose computational and memory-efficient approaches for unidimensional clustering of the IP address spaces. For baseline implementations, evaluated on the New Zealand (NZIX) trace data, our method reduced CPU execution times of the Estan method by a factor of more than eight. We also develop a methodology for anomaly/attack detection based on flow mining, demonstrating the usefulness of this approach on traces from the Slammer and Code Red worms and the MIT Lincoln Laboratories DDoS data.  相似文献   

16.
分析了MET算法的局限性以及out-of-core方法的特点,融合了两种算法的思想提出一种基于分而治之策略的多层次数据挖掘算法(DRMET),避免了计算过程中可能造成的维数灾难问题,克服了MET算法执行效率不高的缺陷,同时继承了MET内存开销小的优点;实验结果表明:新算法在不增加存储空间的前提下大大约减了MET的时间开销,其效率大约是MET的1.86~15.85倍.  相似文献   

17.
提出了一种基于布尔矩阵的最大频繁项集挖掘算法,通过将FP-tree映射成布尔矩阵和权值表,运用布尔逻辑运算进行矩阵投影操作得到最大频繁项集,算法在挖掘过程中不用生成最大频繁候选项集,从而大大提高了算法的时间效率和空间可伸缩性。  相似文献   

18.
数据挖掘算法是神经网络算法中的有效算法,数据挖掘算法主要包括快速聚类、决策树、关联规则、Kohonen神经网络等算法,其研究的内容是算法模型、参数设置及相应的数据处理方法过程。通过利用数据挖掘算法,对电路实验数据的统计分析挖掘技术进行研究。目前,在电路数据分析方面数据挖掘算法的应用还是一种尝试,希望通过这种算法应用的研究,发现在电路实验数据中的有内部规律和价值的信息,从而为电路实验提供有益的帮助和指导。  相似文献   

19.
基于数据库和数据挖掘等应用领域的需求,介绍了计盒维数和广义分形维数的定义,重点介绍了基于多层网格结构的分形维数的线性计算算法,并对算法的数据结构提出了改进方案.新的数据结构保持了算法的线性,降低了算法的空间复杂性,有效提高了算法的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号