期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

罗章铭唐杰黄逸奇张锦《计算机技术与发展》2022,(1)

针对经典Apriori算法在迭代过程中频繁扫描数据库,且动态数据更新后需要重新处理数据的不足,提出一种基于二进制编码的增量更新改进CBEF-Apriori算法。该算法的核心思想是将添加增量后的项集、事务转换成二进制编码,从而将计算项集支持度转化为项集与事务数据库的二进制编码位运算过程。改进算法筛选原数据库生成的频繁项集与增量数据库新生成的候选项集,有效减少了候选项集的规模,提高算法效率的同时更符合现实需要。实验结果表明,相比于经典Apriori算法和CBE-Apriori算法,改进算法在挖掘出正确频繁项集的数量不降低的情况下,明显提升了计算效率,在小数据规模下相比经典Apriori算法最高提升3.6倍,相比CBE-Apriori算法最高提升1.4倍。在较大数据规模下相比经典Apriori算法最高提升10.41倍,相比CBE-Apriori算法最高提升11.53倍。相似文献

2.

一种直接生成频繁项集的分治Apriori算法

郑麟《计算机应用与软件》2014,(4):297-301,326

针对Apriori算法的不足,提出基于项数布尔矩阵的改进算法MPIN_Apriori。改进算法运用分治思想将数据集分段处理,使用事务项数进行矩阵压缩并利用向量交运算和先验剪枝直接生成局部频繁k-项集,最终合并为全局频繁k-项集。该算法从根本上改进了Apriori算法频繁迭代的流程,避免了连接运算而且极大减轻了内存负担。实验结果表明在进行大型数据库频繁项集挖掘时其效率明显高于Apriori算法,而且对分布式数据挖掘有参考价值。相似文献

3.

分布式频繁项集挖掘算法

《计算机应用与软件》2015,(10)

传统的频繁项集挖掘方法具有一定的局限性。Apriori算法需要重复扫描输入数据,导致很高的I/O负载,算法性能不高;Fp-growth算法需要在内存中建立Fp-tree并根据Fp-tree挖掘频繁项集,导致算法受到计算机的内存限制。在大数据时代,由于挖掘数据规模十分巨大,更加凸显这些传统算法的局限性。对此,一方面改进传统的频繁项集挖掘算法,另一方面基于Spark框架实现分布式频繁项集挖掘算法(FIMBS)。实验结果表明,该算法相比基于MapReduce框架的关联规则算法具有显著的优势。相似文献

4.

一种基于BIT存贮运算的Apriori改进算法

林克明《电脑开发与应用》2009,22(9):15-17

探讨了Apriori算法的改进问题,提出了一种基于BIT存贮运算的关联规则挖掘算法。该算法可把相当大的数据集读入内存,并在内存中使用高效的BIT运算快速进行计数,同时简化了Apriori算法中候选项集的计算,由直接判断生成频繁项集,大大地减少了ee间变量及其存贮的时间和空间,提高了关联规则挖掘的速度和效率。相似文献

5.

基于矩阵的关联规则挖掘算法 总被引：9，自引：0，他引：9

王柏盛刘寒冰靳书和马丽艳《微计算机信息》2007,23(15):144-145

文章通过对Apriori算法的思想和性能的分析,提出一种基于矩阵的关联规则挖掘算法。新算法直接通过对布尔矩阵的列向量进行对位“与”运算产生频繁项集,有效地解决了Apriori算法迭代产生频繁项集的瓶颈问题。试验结果表明,新算法比Apriori算法具有更高的效率和性能。相似文献

6.

改进的频繁项集挖掘算法研究

王艳李玲玲邵晓艳《计算机工程与应用》2012,48(19):119-121,144

通过对关联规则挖掘技术及经典算法Apriori和FP-growth的研究和分析,提出了一种改进的频繁项集挖掘算法。该算法利用矩阵存储数据,并结合矩阵运算求项集的支持数,有效减少了事务数据库的扫描次数;利用有序频繁项目邻接矩阵创建频繁模式树,有效减少了频繁模式树的分支和层数。通过实例分析了频繁项集的挖掘过程。相似文献

7.

基于倒排索引位运算的深度优先频繁项集挖掘 总被引：1，自引：0，他引：1

傅向华陈冬剑王志强《小型微型计算机系统》2012,33(8):1747-1751

频繁项集挖掘是关联规则挖掘中的关键任务,非常耗费时间.为提高频繁项集的产生效率,提出一种基于倒排索引位运算的深度优先频繁项集挖掘算法(DF-FIMBII).该算法以二进制数组存储项目到事务的倒排索引,通过位运算计算两个项目的支持计数,并采用深度优先搜索策略递归地挖掘不同的k-频繁项集.在chess、mushroom、pumb_star、T40I10D100K等数据集上,对DF-FIMBII、Apriori、ECLAT、BitTableFI、Index-BitTableFI等算法进行了实验比较.实验结果表明,在数据规模不是非常巨大和支持度较小的情况下,无论数据集的稠密程度如何,DF-FIMBII均具有较好的时间优越性. 相似文献

8.

对Apriori算法的改进及其实现研究

郑继刚《计算机与数字工程》2010,38(12)

传统的关联规则挖掘Apriori算法时间开销大,针对Apriori算法的不足之处,基于关系代数理论,利用关系矩阵及相关运算给出了搜索频繁项集的基于关系代数理论的关联规则挖掘(ORAR)算法.利用关系矩阵只需扫描数据库一次,以降低算法运行时间,挖掘频繁项集,最后通过仿真实验比较这两个算法的执行时间,讨论了数据样本量和最小支持度对算法性能的影响.通过大量的仿真实验证明改进的ORAR算法是高效的,减少了挖掘数据集中频繁项集的运行时间. 相似文献

9.

压缩FP-Tree的改进搜索算法

吴倩罗健旭《计算机工程与设计》2015,(7)

为克服Apriori算法候选频繁项集的支持数计算效率过低和频繁模式增长算法 FP‐Grow th多次建立条件模式树时内存耗费大的问题,提出基于压缩频繁模式树（CFP‐Tree）的改进搜索算法（MCFP‐Tree）。利用Apriori算法候选项集生成的思想和压缩频繁模式树紧凑的数据结构,采用自底向上的搜索策略,快速挖掘压缩频繁模式树及其子树,更快得到候选项集的支持数。实验结果表明,该算法可以高效计算出候选频繁项集出现的频次,挖掘效率明显优于 Apriori和 FP‐Grow th算法。相似文献

10.

数据流频繁项集的快速挖掘方法

下载免费PDF全文

徐建民郝丽维王煜《计算机工程与应用》2008,44(34):142-144

近年来,数据流挖掘一直是国内外研究的热点,频繁项集挖掘又是数据流挖掘中的重要问题。根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW,FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。相似文献

11.

基于散列的频繁项集分组算法

王红梅胡明《计算机应用》2013,33(11):3045-3048

Apriori算法是频繁项集挖掘的经典算法。针对Apriori算法的剪枝操作和多次扫描数据集的缺点,提出了基于散列的频繁项集分组(HFG)算法。证明了2-项集剪枝性质,采用散列技术存储频繁2-项集,将Apriori算法剪枝操作的时间复杂度从O(k×|Lk|)降低到O(1);定义了首项的子项集概念,将数据集划分为以Ii为首项的数据子集并采用分组索引表存储,在求以Ii为首项的频繁项集时,只扫描以Ii为首项的数据子集,减少了对数据集扫描的时间代价。实验结果表明,由于HFG算法的剪枝操作产生了累积效益,以及分组扫描排除了无效的项集和元组,使得HFG算法在时间性能方面与Apriori算法相比有较大提高。相似文献

12.

关联规则挖掘的矩阵算法 总被引：19，自引：0，他引：19

曾万聃周绪波戴勃常桂然李春平《计算机工程》2006,32(2):45-47

关联挖掘作法中的Apriori算法提供了一种根据查找频繁项集来发现数据集中的关联规则的方法,这种算法思路简单易于实现;但在由低次频繁项集生成高次频繁项集时需反复查找数据库,在效率上存在一定的欠缺,在寻找高次频繁项集时尤为明显,文章提出了一种新的关联规则挖掘算法：矩阵算法。同Apriori算法相比较,该算法能直接查找高次频繁项集,可以有效地屏蔽Aptiori算法性能瓶颈试验结果表明,当频繁项级较高时该算法比Apriori具有更高的执行效率和性能,并具有良好的可行性。相似文献

13.

基于维间扩展和事务压缩的关联规则算法改进

张云洋刘芳《计算机时代》2012,(9):24-26,30

Apriori是关联规则挖掘的经典算法,在利用该算法进行医疗数据挖掘的过程中,发现其频繁项集产生过程有一些不必要的开销,为此提出了改进算法Mypriori,利用维间扩展和事务压缩策略来提高频集发现的效率,并通过实验验证了算法的有效性. 相似文献

14.

Spark平台的分布式阶段自适应关联规则挖掘算法

石慧陈恩《计算机与现代化》2019,(12):31

为满足日益增长的海量数据挖掘需求,迫切需要设计一种能够在多台机器上运行的分布式关联规则挖掘算法。Apriori这种高度迭代算法在Hadoop平台上运行时每次迭代执行大量的磁盘I/O操作,大大影响并限制了算法的运行效率。本文利用Spark对分布式计算内置支持的特点,在Spark平台上设计并实现一种分布式关联规则挖掘算法,称为阶段式自适应挖掘算法(Staged Adaptive Apriori)。算法使用自适应的数据集部分处理的策略对频繁项集进行高效挖掘,在每次迭代前初步评估执行时间,并采用较为合适的方法来减少时间和空间的复杂性,是一种基于数据集性质的自适应关联规则挖掘算法。实验结果表明了算法的有效性。相似文献

15.

基于布尔矩阵的关联规则算法研究* 总被引：2，自引：1，他引：1

方炜炜杨炳儒宋威侯伟《计算机应用研究》2008,25(7):1964-1966

针对可快速在大型交易事务数据库中挖掘关联规则的问题,基于布尔矩阵提出一种新的挖掘算法。该算法通过仅需存储布尔位节约了内存,通过简单布尔运算提高了求解频繁项集的效率。实验证明该算法较之于Apriori 算法有更好的性能。相似文献

16.

一种矩阵和排序索引关联规则数据挖掘算法

刘彦戎杨云《计算机技术与发展》2021,(2):54-59

在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低.矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显.该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需... 相似文献

17.

基于Aproiri算法的频繁项集挖掘优化方法

吴学雁莫赞《计算机系统应用》2014,23(6):124-129

为了进一步降低扫描数据库的次数和减轻内存负担,从而更好地提高挖掘频繁项集的效率,一种基于Apriori的优化算法（M-Apriori）被提出. 该方法通过构建频繁状态矩阵来存放项集的频繁状态,构建事务布尔矩阵来存放事务与项集的关系,此算法只需在初始化阶段扫描一次数据库产生初始的频繁状态矩阵和事务布尔矩阵,并在此基础上直接递推产生所有的频繁项集. 实验证明,与Apriori算法相比,M-Apriori算法具有更好的性能与效率. 相似文献

18.

一种基于压缩矩阵的关联规则挖掘算法

曾健张小刚邓义剑《微计算机信息》2010,(9)

针对在关联规则中的Apriori算法进行了深入研究的基础上,提出了一种基于压缩矩阵的关联规则挖掘算法(CMApriori算法)。该算法只需扫描一次数据库,在矩阵上采用事务压缩和项目压缩技术,节省了数据占用的内存空间。在对建立好的压缩矩阵上只需进行简单的计数运算即可得到频繁项集。仿真实验证明:该算法与Apriori算法相比,运算效率大大提高。相似文献

19.

基于并行Apriori的物流路径频繁模式研究

下载免费PDF全文

曹菁菁任欣欣徐贤浩《计算机工程与应用》2019,55(11):257-264

传统的频繁路径挖掘分析主要通过关联规则算法实现，但其在处理大型数据集时，会产生占用内存过多，数据处理速度慢等问题，对此提出一种基于Fuzzy [c]-means聚类算法的并行Apriori算法模型。该模型通过Fuzzy [c]-means算法完成对原始数据集的聚类分析，将同一区域的物流路径数据划分到内部相似度较高的数据类，并利用Apriori算法对各数据类中的频繁模式进行挖掘分析，进而获得各区域的物流频繁路径。同时通过Hadoop平台实现算法的并行化，有效提高算法运行效率和质量。通过对物流频繁路径的挖掘分析，使管理者更清楚货物流向，可为配送路径优化等决策提供支持。相似文献

20.

扩充的频繁模式挖掘算法在拒绝服务攻击入侵检测中的应用

李秦《计算机与现代化》2007,(7):90-93

提出了一种可直接用于快速频繁模式挖掘的频繁项目表的概念,并实现了具体的频繁模式增量挖掘方法.在对拒绝服务攻击的入侵检测中证明:与类Apriori方法不同,该方法无需再生成候选集,频繁模式的搜索仅需对频繁项目表上特定项目的支持数进行加法操作,同时每个生成的频繁项目表的容量很小并适于在内存中处理,从而能有效改进算法性能. 相似文献