首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
为减少构建效用列表的数量和占用的内存,在时间和空间方面提高挖掘性能,提出增量闭合高效用挖掘算法(incremental closed high utility mining, ICHUM),从增量数据集中有效地挖掘闭合高效用项集。此算法提出一个增量分区效用列表结构,该结构仅通过一次数据库扫描即可构建和更新列表,更有效地处理增量数据。在构造此列表结构的过程中,算法还应用有效的融合修剪策略,从而减少无效列表的构建数量。在各种数据集上的试验结果表明,与对比算法相比,该算法减少了30%的运行时间和33%的内存消耗,具有一定的可扩展性。  相似文献   

2.
针对存在大量冗余数据等问题,提出紧凑增量高效用挖掘算法.采用HUI-trie结构和紧凑效用列表两种结构,前者用于更新高效用项集的效用,后者用于存储信息,而无需生成任何候选项.这两种结构使算法无需再次分析整个数据集,就可以将增加的数据反映到以前的分析结果中,更有效地处理增量数据集.试验结果表明,该算法在各种数据集上,运行...  相似文献   

3.
与传统的频繁模式挖掘相比,高效用模式可以挖掘出具有更高效用价值的模式,提供更丰富的决策信息,其研究也日益受到关注,一些算法也相继提出。为了更好地了解该领域的研究状况,本文对高效用频繁模式挖掘技术进行了综述。首先介绍了效用模式的相关概念;然后,分高效用频繁项集挖掘和高效用序列模式挖掘两个方面详细研究了目前已经提出的挖掘算法。本文对研究人员更好地掌握现有算法并在此基础上提出更好的算法有着重要参考价值。  相似文献   

4.
针对现有研究方案中对病毒或病菌的传染模式定义过于严格,可能丢失重要且正确的传染事件的问题,提出面向移动对象的松散型传染模式挖掘算法. 给出松散型传染事件的模式定义;提出基于滑动窗口的松散型传染模式挖掘算法(LIPMA),按照传染事件发生的时间先后顺序,从初始传染源开始,利用滑动窗口机制,依次对每一个待检测对象进行分析处理,进而挖掘所有传染事件;提出基于R-tree索引的优化挖掘算法LIPMA+,该优化算法在每一轮的处理过程中,通过降低每一轮待检测对象的规模,实现挖掘效率的提升. 实验结果表明,所提出的传染模式挖掘算法能够对松散型传染事件进行高效、正确的挖掘,且能够挖掘更多潜在的传染事件;优化算法的挖掘效率显著提升,LIPMA+的平均挖掘时间仅占LIPMA的2%.  相似文献   

5.
针对已有Web事务识别模型的缺点,提出一种识别Web事务的新模型———IPRC模型.该模型根据主索引页上的引用以及文档目录结构将网页分类,并以此作为识别Web事务的依据.在此基础上提出了一种挖掘频繁访问模式的算法WDHP,该算法继承了DHP算法使用hash树过滤候选集以及裁剪数据库的基本方法,并以访问路径树的方式将数据库存储于内存,在内存中完成后继的挖掘,不仅减少了扫描数据库的次数,而且大大降低了算法的时间复杂性.实验表明WDHP算法不仅优于DHP算法,而且也优于典型的基于内存的WAP算法.  相似文献   

6.
传统的频繁项集挖掘用支持度来衡量项集的重要性会丢失一些支持度不高,但效用很高、用户很可能感兴趣的模式.高效用项集能反映用户的偏好,弥补传统频繁项集挖掘的不足.本文提出了一种基于数据库垂直表示的高效用项集挖掘算法,通过执行事务支持集的交运算来找寻候选高效用项集,通过扫描一遍数据库,从候选高效用项集中发现高效用项集.本算法利用了数据库垂直表示方法存储量小、运算快的优势.实验结果表明,该算法具有较高的挖掘效率和良好的可扩展性.  相似文献   

7.
数据挖掘具有广泛的应用,频繁模式发现是关联规则挖掘问题的重要组成部分。频繁模式的增量挖掘是一个挑战性的任务,已有的几种基于Apriori思想的方法,具有代价太高的弱点。本文提出了一个基于模式分解树,不需要扫描原数据库的增量挖掘算法。通过合理地组织候选项索引,可以取得较高的效率。  相似文献   

8.
针对传统FP-Growth算法在大规模数据环境下挖掘效率低下的问题,提出了一种改进的FP-Growth算法.该算法主要是通过基于频繁闭项集策略对完备模式树进行剪枝进而减小搜索空间规模,达到提高算法挖掘效率的目的 .并将改进后的FP-Growth算法的分治策略与分布式计算框架Hadoop的MapReduce编程模式有机结合,进一步提高了大数据环境下的挖掘效率.实验证明,基于Hadoop的改进FP-Growth算法的效率较传统FP-Growth算法有所提高.  相似文献   

9.
在频繁模式挖掘(FPM)的研究中,为了在海量数据流中有效地挖掘子树结构的频繁模式,根据数据流和子树模式的特点,提出了一种基于数据流的频繁标记闭子树挖掘(SFCLTreeMiner)算法. 该算法首次对动态数据流中频繁标记闭子树的挖掘进行研究,给出了在数据流中标记闭子树集合添加、删除的批量挖掘方法,并结合时间衰减模型,有效保证了结果的时效性. 实验结果表明,该算法在挖掘性能,如挖掘时间和内存占用等方面,比类似算法有较大提高.  相似文献   

10.
现有的基于滑动窗口挖掘高效用项集的研究方法存在:候选项集通常数量巨大,需要大量的存储空间及计算候选项集的真实效用是非常耗时的问题。本文提出一种不生成候选项集的挖掘算法HUISW(high utility itemset mining over a siding window),HUISW采用一种新的树结构HUIL-Tree(high utility itemset tee which arranges items according to lexicographic order)存储滑动窗口中的项集信息,采用效用数据库存储项集在窗口事务中的效用信息,在挖掘过程中HUISW采用模式增长的方法对由HUIL-Tree生成的项集通过其与效用数据库的对应关系,直接计算其在滑动窗口中的效用,整个过程避免了候选项集的生成。在实验中通过由稀疏和稠密数据集模拟的数据流对HUISW进行性能评估,并与同类算法SHU-Growth(siding window based high utility growth)进行比较,实验结果表明HUISW显著优于SHU-Growth,运行时间最快可提升两个数量级。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号