首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
FP-growth算法是当前挖掘频繁模式的有效算法之一,但FP树的节点占用空间较大,长时间占用内存不释放,挖掘过程中需要产生大量的条件FP树,因而时空效率不理想.提出了一种循环十字链表结构用作存储事务数据库,而不生成FP树,在挖掘频繁项集的过程中,这种链表结构逐步缩小,减少了内存的使用率,通过构建排序的条件频繁模式树挖掘频繁项集.理论分析和实验表明基于这种结构的排序条件频繁模式树挖掘频繁项集具有较好的时空效率.  相似文献   

2.
发现频繁项集是关联规则挖掘中最基本、最重要的问题.目前已有两类频繁项集挖掘算法,然而由于其内在的复杂性,这一问题并未完全解决.提出了一种基于FP-Tree的频繁项集挖掘算法,该算法通过计算FP-Tree中非叶子节点的频繁子孙集和频繁前缀,组合生成频繁项集,无需递归构造每个频繁项的条件模式树,节约了时间和内存空间,算法性能在一定程度上得到了提高.  相似文献   

3.
由于基于Fp-tree的DMFIA算法在生成最大频繁项目集时会产生大量的候选频繁项集,通过改进传统的FP-tree结构,并提出了一种基于改进FP-tree的最大频繁模式挖掘算法FP-MFI,该算法不需要生成最大频繁候选项目集,改进的FP-tree是单向的,每个节点只保留了指向父节点的指针,可节约树空间.实验结果表明FP-MFI算法在数据库中频繁项目很多,而每一个事务中频繁项目很少的情况下,比同样基于FP-tree的DMFIA算法挖掘最大频繁项目集的效率更高.  相似文献   

4.
通用的频繁模式挖掘算法通常产生庞大的频繁模式集,其中很多是用户不感兴趣的非目标模式。要排除这些非目标模式,用户必须进行"二次挖掘"。TFP-growth虽然生成所有最大目标频繁模式,但要从中获得目标频繁模式,还需经过"二次挖掘"。若在挖掘的早期就对非目标频繁模式的产生加以限制,则有望提高算法的效率。本文在TFP-growth和SFP-growth的基础上,提出一种目标频繁模式挖掘算法STFP-growth,通过对TFP-树的排序、根据树根结点的不同情形采用不同的建子树方法和目标频繁模式筛选方法等来提高算法的效率。STFP-growth挖掘的结果是所有满足用户需求的目标频繁模式,不需"二次挖掘"。实验表明,STFP-growth的效率高于TFP-growth,也明显优于Apriori和Eclat。  相似文献   

5.
提出了项集长度受限且生成项集对应事务信息的最大频繁项集挖掘问题,定义为L-MAX频繁项集挖掘,并重点研究了项集长度约束特征和事务集信息的存储与生成策略.首先研究了L-MAX频繁项集的性质,然后扩展FP-tree提出了ExFP-tree结构并给出ExFP-tree生成算法.ExFP-tree利用FP-tree共享前缀路径的性质通过共享子孙节点事务信息策略实现大量事务信息的压缩存储;最后基于FP-MAX算法,提出基于ExFP-tree的L-MAX频繁项集挖掘算法,核心思想是先根据L-MAX频繁项集长度约束性质进行前瞻剪枝再进行最大频繁项集挖掘,并通过回溯策略直接定位生成对应事务集.  相似文献   

6.
基于AP聚类和频繁模式挖掘的视频摘要生成方法   总被引:1,自引:0,他引:1  
为了有效支持视频数据库浏览和检索,通过视频摘要来对视频进行紧凑表达变得十分重要.提出了一种新颖的基于近邻传播聚类AP(Affinity Propagation)和频繁镜头模式挖掘的视频摘要自动生成算法.视频频繁镜头模式被定义为在一定时间窗口内经常出现的镜头系列.首先通过近邻传播聚类,将相似镜头聚合到一起;然后采用频繁镜头模式挖掘的方法对视频聚类内容进行挖掘,去掉视频中冗余内容部分;最后通过覆盖视频语义信息的频繁镜头模式生成视频摘要.实验结果表明,视频摘要算法取得了良好的效果.  相似文献   

7.
基于FP-Tree的最大频繁项目集挖掘及更新算法   总被引:105,自引:2,他引:105       下载免费PDF全文
宋余庆  朱玉全  孙志挥  陈耿 《软件学报》2003,14(9):1586-1592
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,之前的很多研究都是采用Apriori类的候选项目集生成-检验方法.然而,候选项目集产生的代价是很高的,尤其是在存在大量强模式和/或长模式的时候.提出了一种快速的基于频繁模式树(FP-tree)的最大频繁项目集挖掘DMFIA(discover maximum frequent itemsets algorithm)及其更新算法UMFIA(update maximum frequent itemsets algorithm).算法UMFIA将充分利用以前的挖掘结果来减少在更新的数据库中发现新的最大频繁项目集的费用.  相似文献   

8.
在频繁模式挖掘过程中能够动态改变约束的算法比较少.提出了一种基于约束的频繁模式挖掘算法MCFP.MCFP首先按照约束的性质来建立频繁模式树,并且只需扫描一遍数据库,然后建立每个项的条件树,挖掘以该项为前缀的最大频繁模式,并用最大模式树来存储,最后根据最大模式来找出所有支持度明确的频繁模式.MCFP算法允许用户在挖掘频繁模式过程中动态地改变约束.实验表明,该算法与iCFP算法相比是很有效的.  相似文献   

9.
一种基于情节矩阵和频繁情节树的情节挖掘方法   总被引:1,自引:0,他引:1  
针对现有的最小发生的频繁情节挖掘中存在的问题,提出一种发现情节的不同最小发生并对其进行计数的方法.在此基础上,提出基于情节矩阵和频繁情节树的最小发生频繁情节挖掘方法,基于直接扩展思想,只需扫描数据一次,不需生成候选情节,提高了挖掘的时空效率.提出了基于相同结点链和哈希链的优化方法,通过省略相同结点的扩展过程,进一步提高了挖掘性能.最后,在不同类型的真实数据集上进行实验,实验结果验证了所提出的频繁情节挖掘方法的优势以及优化方法的有效性和高效性.  相似文献   

10.
基于索引数组和复合频繁模式树的频繁闭项集挖掘算法   总被引:1,自引:0,他引:1  
频繁闭项集惟一确定频繁项集且规模小得多.CROP是一种基于复合频繁模式树的、频繁闭项集高效挖掘算法,但存在着候选结点过多的问题.这些非闭合结点的生成、检查和剪裁带来了大量不必要的操作.提出了一种改进的频繁闭项集挖掘算法CROP_Index.该算法用"索引数组"来组织数据,找到频繁共同出现的项集.基于二进制位图,给出了一个包含索引的计算方法,并利用索引启发信息合并,得到复合型频繁模式树的初始结点;同时给出一些新的性质,使得改进的算法只生成闭合结点,从而节省了大量不必要的操作,缩小了搜索空间.实验结果表明该算法效率较高.  相似文献   

11.
Apriori算法必须反复地扫描数据库才能求出频繁项集,效率较低,且不支持更新挖掘。为了解决这些问题,提出了一种基于粗糙集、单事务项组合和集合运算的关联规则挖掘算法。本算法首先利用粗糙集进行属性约简,对新决策表中的每个事务进行“数据项”组合并标记地址,然后利用集合运算的方法计算支持度和置信度即可挖掘出有效规则。本算法只需要一次扫描数据库,同时有效地支持了关联规则的更新挖掘。应用实例和实验结果表明,本算法明显优于Apriori算法,是一种有效且快速的关联规则挖掘算法。  相似文献   

12.
针对PrefixSpan算法中反复扫描投影数据库寻找局部频繁项并重复构造挖掘大量重复投影数据库的不足,提出一种基于序列末项位置信息的序列模式挖掘算法SPM-LIPT。通过连接2-序列位置信息表(LIPT)找到序列模式的下一项,实现序列模式增长,避免对投影数据库反复扫描;同时通过检查相同末项序列首位置信息表(SLIFPT)进行前向剪枝;消除大量重复投影的构建。最后通过实验证明了算法的有效性。  相似文献   

13.
针对图书馆服务方式的滞后,图书馆与用户供需矛盾的现状,运用数据挖掘技术,调取借阅记录,采用DS-Eclat算法,挖掘其最大频繁项集,通过找出用户搜索信息中的内在关联规则,以此促进图书馆服务方式的转变。对比传统Eclat算法与本文DS-Eclat算法,结果表明DS-Eclat算法能很快地发现最大频繁项集,此最大频繁项集能促进图书馆个性化服务的发展。  相似文献   

14.
基于前缀树的高效频繁项集挖掘算法   总被引:3,自引:3,他引:0       下载免费PDF全文
针对频繁项集挖掘时间与空间效率低的问题,提出一种基于前缀树的高效频繁项集挖掘算法,通过对事务集进行预处理,创建索引表并分配索引编号,保证前缀树中事务顺序的一致性,根据索引编号等信息创建紧凑的前缀树,采用自底向上的挖掘与投影的方式挖掘出频繁项集。实验结果表明,该算法挖掘效率高、占用空间少。  相似文献   

15.
在关联规则数据挖掘领域中,Apriori算法是这个方面的经典算法,但它仍存在许多弊端,为此在Apriori算法的基础上提出了一种基于有向图链式存储的改进算法,此算法根据数据结构中有向图链式存储的结构,将所有事务全部存入链表,无需多次扫描数据库,只在事务链表中完成候选集和频繁集的寻找工作.此方法能够迅速得到候选集的支持度...  相似文献   

16.
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能。针对当前在最频繁项集挖掘方面的不足,将集合论引入倒排表以对其进行改进,然后以此为基础提出了几个命题和推论,并结合最小支持度阈值动态调整策略,提出了一个基于改进的倒排表和集合理论的最频繁项集挖掘算法,最后对所提算法进行验证。实验结果表明,所提算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法,即NApriori和IntvMatrix算法都好。  相似文献   

17.
基于FP-Tree有效挖掘最大频繁项集   总被引:36,自引:2,他引:36       下载免费PDF全文
最大频繁项集的挖掘过程中,在最小支持度较小的情况下,超集检测是算法的主要耗时操作.提出了最大频繁项集挖掘算法FPMFI(frequent pattern tree for maximal frequent item set)使用基于投影进行超集检测的机制,有效地缩减了超集检测的时间.另外,算法FPMFI通过删除FP子树(conditional frequent pattern tree)的冗余信息,有效地压缩了FP子树的规模,减少了遍历的开销.分析表明,算法FPMFI具有优越性.实验比较说明,在最小支持度较小时,算法FPMFI的性能优于同类算法1倍以上.  相似文献   

18.
关联规则的快速提取算法   总被引:1,自引:0,他引:1  
针对基于频繁项集的关联规则挖掘算法效率低,需要多次扫描数据库且生成冗余候选项集问题,该文利用频繁项集的Aprior性质和概念格的基本思想提出一种关联规则提取算法,利用极大频繁项集来进行规则提取,去除了多数冗余的候选项集,提高了提取效率。  相似文献   

19.
大多数对频繁模式挖掘算法的研究都着眼于逻辑层面算法过程的改进,而对数据在计算机内存中的物理存储方式的探索相对较少。以FP-Tree存储结构和FP-Growth算法为基础,提出了FP-Tree头表的顺序存储方式,并在此基础上,利用基于频繁项ID映射的哈希表对FP-Tree的存储方式进行了改进,提出了与之相对应的频繁模式挖掘算法。实验结果表明该算法是快速和有效的。  相似文献   

20.
为提高不确定数据集上频繁模式挖掘的效率, 针对已有算法在判断是否需要为头表中的某项创建子头表时的计算量比较大的问题, 给出一个近似挖掘策略AAT-Mine, 以损失小部分频繁项集为代价, 提高整个算法的挖掘效率。采用三个不同的典型数据集进行了算法的测试, 分别与目前最好的算法和典型算法进行性能对比。实验结果验证了近似算法AAT-Mine的时空效率都得到了提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号