期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘慧婷候明利赵鹏姚晟《计算机工程与应用》2016,52(19):72-77

对于大型数据,频繁项集挖掘显得庞大而冗余,挖掘最大频繁项集可以减少挖出的频繁项集的个数。可是对于不确定性数据流,传统判断项集是否频繁的方法已不能准确表达项集的频繁性,而且目前还没有在不确定数据流上挖掘最大频繁项集的相关研究。因此,针对上述不足,提出了一种基于衰减模型的不确定性数据流最大频繁项集挖掘算法TUFSMax。该算法采用标记树结点的方法,使得算法不需要超集检测就可挖掘出所有的最大频繁项集,节约了超集检测时间。实验证明了提出的算法在时间和空间上具有高效性。相似文献

2.

不确定数据频繁闭项集挖掘算法

刘慧婷沈盛霞赵鹏姚晟《计算机应用》2015,35(10):2911-2914

由于不确定数据的向下封闭属性,挖掘全部频繁项集的方法会得到一个指数级的结果。为获得一个较小的合适的结果集,研究了在不确定数据上挖掘频繁闭项集,并提出了一种新的频繁闭项集挖掘算法——NA-PFCIM。该算法将项集挖掘过程看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。该算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集(T10I4D100K、Accidents、Mushroom、Chess)上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。相似文献

3.

基于概念格的频繁闭项集挖掘方法

翟悦何丹丹《计算机应用与软件》2014,(11)

频繁项集挖掘是数据挖掘研究领域的一个基本问题,其瓶颈在于频繁项集全集的结果过多,冗余现象严重,而频繁闭项集能唯一确定频繁项集且规模小得多。针对如何快速生成频繁闭项集,分析不可分辨矩阵、概念格和频繁闭项集之间的关系,提出一种新的更有利于生成频繁闭项集的格结构,并给出相应的渐进式生成算法和频繁闭项集提取算法。实验表明该方法能够高效地挖掘频繁闭项集。相似文献

4.

一种新的频繁项集精简表示方法及其挖掘算法的研究 总被引：3，自引：0，他引：3

宋威李晋宏徐章艳杨炳儒《计算机研究与发展》2010,47(2)

频繁项集挖掘是数据挖掘研究领域的一个基本问题,其瓶颈在于频繁项集全集的结果过多,冗余现象严重.主要的解决思路是只挖掘全体频繁项集中有代表性的子集,使得这种子集或者可满足应用的需要或者可由它们导出其他项集.最大项集和闭项集便是这类解决方案中两种最典型的子集形式.在最大项集和闭项集的基础上,提出了元项集这一新的频繁项集精简表示方法.首先,证明了最大项集和闭项集都是元项集的特例,且元项集所包含的项集数目介于二者之间;其次,讨论了元项集的性质.最后,通过在闭项集挖掘算法DCI-Closed-Index的基础上引入剪枝策略,设计了一个元项集挖掘算法.实验结果表明,所提出的挖掘算法是有效的和高效的. 相似文献

5.

基于频繁项集挖掘最大频繁项集和频繁闭项集 总被引：3，自引：1，他引：2

姜晗贾泂徐峰《计算机工程与应用》2008,44(28):146-148

提出了基于频繁项集的最大频繁项集（BFI-DMFI）和频繁闭项集挖掘算法（BFI-DCFI）。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。相似文献

6.

一种挖掘频繁闭项集的改进算法 总被引：1，自引：0，他引：1

吴春旭陈家耀刘博文《计算机系统应用》2008,17(10):32-35

频繁闭项集的挖掘是近年来频繁项集挖掘研究的热点。本文引入了共生项集的概念,从一个新的角度看待频繁闭项集的挖掘问题。利用共生项集的性质,本文提出了一种新的无需遍历结果集的闭合性检查方法,并在此基础上对CLOSET算法进行改进,实验证明,取得了良好的效果。相似文献

7.

数据流中基于事务链表组的频繁闭项集挖掘

王磊黄志球朱小栋沈国华程亮《计算机工程与设计》2008,29(8):1896-1899

挖掘频繁项集是挖掘数据流的基本任务.许多近似算法能够对数据流进行频繁项集的挖掘,但不能有效控制内存资源消耗和挖掘运行时间.为了提高数据流挖掘的效率,通过挖掘数据流中的频繁闭项集来减少挖掘结果项集的数量,并借鉴Relim算法和Manku算法,引入事务链表组作为概要数据结构,提出了一种新的数据流频繁闭项集的挖掘算法.最后通过实验,证明了该算法的有效性. 相似文献

8.

挖掘事务间频繁闭项集的高效率算法

董杰韩敏《控制与决策》2008,23(9)

事务间频繁项集将传统的单维事务内关联规则扩展到多维跨事务关联规则,但事务问频繁项集的数量随滑动时同间窗口的增大而迅速增加.利用频繁闭项集的特点.提出事务间频繁闭项集的概念及其挖掘算法(FCITA).该算法采用分割和条件数据库技术,避免生成庞大的扩展数据库;利用扩展二进制形武压缩事务,从而提高支持度的计算效事.此外,动态排序和哈希表极大地减少了频繁闭项集的测试次数.仿真比较表明,FCITA算法具有较高的挖掘效率. 相似文献

9.

用变异FP-树改进CLOSET算法

刘迎意吴春旭沈陵峰《计算机仿真》2010,27(3):98-101

频繁闭项集提供了频繁项集的一种完整、最小表示,对频繁闭项集的挖掘是近年来数据挖掘领域研究的热点,研究人员从不同角度对算法改进以提高算法的效率。基于频繁项集中共生项集的性质,提出无须进行子集检查的频繁闭项集挖掘方法,并设计一种变异的FP-树结构,利用FP-树结构来存储结点共生项集信息,以改进CLOSET算法,算法无须遍历结果集进行闭合性检查。实验表明,在支持度阈值减小,结果集变大时,改进算法的时间增长率比原有算法小。相似文献

10.

基于MapReduce的频繁闭项集挖掘算法改进

《微型机与应用》2015,(24):66-69

挖掘频繁闭项集(CFI)在许多实际应用中起着重要的作用。传统的数据挖掘算法中常用FP增长算法和Apriori算法来挖掘频繁项集。然而,内存需求和计算成本成为CFI挖掘算法的瓶颈,尤其是在从大型数据集中挖掘频繁闭项集时,是一个重要和具有挑战性的问题。针对上述问题,提出一种基于云计算的MapReduce框架的并行AFOPT-close算法,使MapReduce可广泛地用于处理大型数据。此外,用于检查频繁项集是否为完全闭的有效并行算法也要求MapReduce平台进一步完善其性能。相似文献

11.

基于粒度计算的频繁闭项目集挖掘

方刚王佳乐应宏汤小斌《计算机工程与应用》2014,50(20):130-134

针对现有频繁闭项目集挖掘算法存在的不足,提出了一种基于粒度计算的频繁闭项目集挖掘算法。通过混合进制数的变化来生成候选项目集,避免使用了复杂的数据结构,减少了内存和CPU的开销;利用粒度计算的分而治之思想来计算频繁闭项目集的支持度,避免了多次重复扫描数据库,减少了计算复杂度和I/O开销。实验结果表明该算法比经典的频繁闭项目集挖掘算法快速而有效。相似文献

12.

一种改进的基于矩阵的频繁项集挖掘算法

张笑达徐立臻《微机发展》2010,(4):93-96

如何从海量数据信息中挖掘出有用的关联规则已经成为人们广泛关注的问题,而在关联规则挖掘中,首要的问题就是如何高效地挖掘出频繁项集。针对已有FIMM算法作出改进,提出了一种改进的基于矩阵的频繁项集挖掘算法N—FIMM,该算法在FIMM基础上去除大量冗余的非频繁项集的项集,减少计算可能频繁项集的工作量,同时缩小了矩阵规模,提高了空间效率。通过对矩阵操作,一次性地产生所有的频繁项集。试验结果表明,该算法对已有的基于矩阵的频繁项集挖掘算法有了很大的改进,提高了挖掘效率。相似文献

13.

不确定数据频繁项集挖掘方法综述

下载免费PDF全文

汪金苗张龙波邓齐志王凤英王勇《计算机工程与应用》2011,47(20):121-125

近几年来,不确定数据广泛出现在传感器网络、Web应用等领域中。不确定数据挖掘已经成为了新的研究热点,主要包括聚类、分类、频繁项集挖掘、孤立点检测等方面,其中频繁项集挖掘是重点研究的问题之一。综述了传统的频繁项集挖掘的两类基本算法,分析了在此基础上提出的适用于不确定数据以及不确定数据流的频繁项集挖掘的方法,并探讨了今后可能的研究方向。相似文献

14.

三维数据集中基于位运算的挖掘算法

下载免费PDF全文

彭学武王黎明《计算机工程》2011,37(6):61-64

提出一种基于位处理技术的三维数据挖掘算法——BD-Peeler算法。该算法利用计算机每次处理32位数据的特性,将三维数据集按位存储,最大限度地提高每次运算处理数据集的数据量。实验结果表明,与Data-Peeler算法相比,该算法可以更快速有效地挖掘出三维数据集中的闭频繁项集。相似文献

15.

基于环境标记约束的不确定轨迹频繁路径挖掘

张晓滨张海基《计算机应用研究》2018,35(9)

针对环境约束的不确定轨迹数据的频繁路径问题,设计了一种适应于严格时间约束条件下基于环境约束的位置不确定的移动概率序列挖掘算法（UETFP-PrefixSpan）,算法通过设置类标号把不同环境下的不确定轨迹数据区分开,利用概率支持度对频繁项集进行了重新定义,通过减少某些特定序列模式生成过程的扫描,来减少投影数据库的规模及扫描投影数据库的时间,提高算法效率。测试实验结果表明,改进后的UETFP-PrefixSpan算法挖掘结果更符合现实情况,算法执行效率更高。相似文献

16.

一种基于位运算的频繁闭项集挖掘算法

徐嘉莉杨洪军赵茂娟樊云《计算机应用研究》2013,30(11):3280-3282

针对相关算法在挖掘频繁闭项集时所存在的问题, 提出了一种基于位运算的频繁闭项集挖掘算法。该算法首先将数据集转换成布尔矩阵, 只需扫描数据集一次; 通过位运算计算支持度, 利用矩阵和数组存储辅助信息, 减少时间和空间消耗; 深度优先搜索产生频繁闭项集时利用剪枝策略进一步减少挖掘时间; 利用同生项集性质进行闭合性检测, 无须检查超集或子集。理论分析和实验结果验证了该算法的有效性。相似文献

17.

数据流中基于矩阵的频繁项集挖掘 总被引：3，自引：0，他引：3

王磊黄志球朱小栋沈国华程亮《计算机科学与探索》2008,2(3):330-336

挖掘频繁项集是挖掘数据流的基本任务。许多近似算法能够有效地对数据流进行频繁项挖掘,但不能有效地控制内存资源消耗和挖掘运行时间。为了提高数据流频繁项集挖掘的时空效率,通过引入矩阵作为概要数据结构,提出了一种新的数据流频繁项集挖掘算法。最后通过实验证明了该算法的有效性。相似文献

18.

全局频繁闭项目集挖掘算法研究

陈健美朱玉全宋顺林桂长青宋余庆《计算机科学》2008,35(1):193-195

频繁闭项目集挖掘是数据挖掘研究中的一个重要研究课题.目前已有的频繁闭项目集挖掘算法主要针对单机环境,有关分布式环境下的全局频繁闭项目集挖掘算法的研究尚不多见.为此,本文提出了一种快速挖掘全局频繁闭项目集算法,并对其更新问题进行了研究;提出了一种相应的频繁闭项目集增量式更新算法,该算法将充分利用先前的挖掘结果来节省发现新的全局频繁闭项目集的时间开销.实验结果表明算法是有效的. 相似文献