首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
一种新的基于FP-Tree的关联规则增量式更新算法   总被引:2,自引:0,他引:2  
挖掘关联规则是数据挖掘研究的一个重要方面,目前已经提出了许多算法用于高效地发现大规模数据库中的关联规则,而维护已发现的关联规则同样是重要的.针对在事务数据库增加和最小支持度同时发生变化的情况下,如何进行关联规则的更新问题进行了研究,提出了一种新的基于频繁模式树的关联规则增量式更新算法,并对该算法进行了分析和讨论.  相似文献   

2.
针对频繁项集增量更新的问题,提出算法FIU。该算法将保存了数据库事务的FP-tree存储在磁盘上,当挖掘新支持度阈值的频繁项集时,只需从磁盘上读入FP-tree,再挖掘新支持度阈值下的频繁项集。当新增数据库事务记录后,首先建立新项目表,然后根据新项目表建立新增事务记录的FP-tree,读入存储在磁盘上的FP-tree,抽取出所有的事务记录,再插入到新FP-tree中.从而得到增量更新后的FP-tree。最后在增量更新后的FP-tree上挖掘频繁项集。实验证明,FIU算法执行时间不随数据库大小变化,与其他算法相比有较好的性能。  相似文献   

3.
数据库的访问频度是影响关联规则挖掘性能的关键因素之一。通过研究FP-tree算法,提出了一种基于FP-tree的快速构建算法,使FP-tree的构建过程仅需一次数据库扫描。该算法通过动态调整项头表中各项的顺序,同时动态修正FP-tree中项的出现顺序与项头表中各项出现顺序不一致的节点。最后,通过对项头表中非频繁项的剔除与FP-tree中对应项节点的清理,完成FP-tree的构建过程。实验结果证明了该算法的有效性。  相似文献   

4.
针对FP-Growth算法中频繁模式树的遍历低效问题,提出了一种无项头表的频繁模式增长算法。该算法利用递归回溯的方式遍历频繁模式树以求取条件模式基,解决了对同一树路径多次重复遍历的问题。从理论分析和实际挖掘能力两方面,将新算法与FP-Growth算法进行了对比。结果表明,新算法有效减少了条件模式基的搜索开销,使频繁模式挖掘的效率提高了2~5倍,在时间和空间性能上均优于FP-Growth算法。将该算法应用于通信告警关联规则挖掘,较快地挖掘出了关联规则结果,且正确规则的覆盖率达到了83.3%。  相似文献   

5.
将Voronoi区域的半平面公共交集转换为Voronoi顶点与半平面的位置关系,提出一种简单的裁剪规则实现Voronoi区域的增量构造;该算法可以有效地处理半直线Voronoi边与直线Voronoi边以及节点共线等特殊情况。理论分析与实验结果表明,该增量构造Voronoi区域的平均时间复杂度是近似线性的。  相似文献   

6.
FP-Growth算法的改进   总被引:1,自引:0,他引:1  
基于FP树的FP-Growth算法在挖掘频繁模式过程中需要两次扫描事务集来建立FP树,这不仅降低了算法的效率,而且给数据库服务器带来负担.在原有经典FP-Growth算法的基础上,提出一种基于二维表的方法对原算法进行改进,改进算法通过使用二维向量记录频繁度仅需遍历一次事务集,从而省略FP-Growth算法在生成新条件FP树时对条件模式基的第一次遍历,大大缩短了建立FP树的时间.实验结果表明,该算法的改进优于经典算法.  相似文献   

7.
The k-means algorithm and its variations are known to be fast clustering algorithms. However, they are sensitive to the choice of starting points and are inefficient for solving clustering problems in large datasets. Recently, incremental approaches have been developed to resolve difficulties with the choice of starting points. The global k-means and the modified global k-means algorithms are based on such an approach. They iteratively add one cluster center at a time. Numerical experiments show that these algorithms considerably improve the k-means algorithm. However, they require storing the whole affinity matrix or computing this matrix at each iteration. This makes both algorithms time consuming and memory demanding for clustering even moderately large datasets. In this paper, a new version of the modified global k-means algorithm is proposed. We introduce an auxiliary cluster function to generate a set of starting points lying in different parts of the dataset. We exploit information gathered in previous iterations of the incremental algorithm to eliminate the need of computing or storing the whole affinity matrix and thereby to reduce computational effort and memory usage. Results of numerical experiments on six standard datasets demonstrate that the new algorithm is more efficient than the global and the modified global k-means algorithms.  相似文献   

8.
In this paper the problem of finding piecewise linear boundaries between sets is considered and is applied for solving supervised data classification problems. An algorithm for the computation of piecewise linear boundaries, consisting of two main steps, is proposed. In the first step sets are approximated by hyperboxes to find so-called “indeterminate” regions between sets. In the second step sets are separated inside these “indeterminate” regions by piecewise linear functions. These functions are computed incrementally starting with a linear function. Results of numerical experiments are reported. These results demonstrate that the new algorithm requires a reasonable training time and it produces consistently good test set accuracy on most data sets comparing with mainstream classifiers.  相似文献   

9.
对于频繁项集挖掘,采用一种FP-数组技术来减少FP-tree的遍历时间,减少数据集的扫描次数,在此基础上提出了一种基于FP-tree进行频繁项集挖掘的FP-growth+算法,提高了算法的效率。最后的实验证明了该算法的有效性。  相似文献   

10.
基于频繁模式树的分布式关联规则挖掘算法   总被引:1,自引:0,他引:1  
何波 《控制与决策》2012,27(4):618-622
提出一种基于频繁模式树的分布式关联规则挖掘算法(DMARF).DMARF算法设置了中心结点,利用局部频繁模式树让各计算机结点快速获取局部频繁项集,然后与中心结点交互实现数据汇总,最终获得全局频繁项集.DMARF算法采用顶部和底部策略,能大幅减少候选项集,降低通信量.理论分析和实验结果均表明了DMARF算法是快速而有效的.  相似文献   

11.
针对已有算法为了减少PF-tree中路径被重复遍历的次数,需要保存FP-tree中所有频繁1-项集的条件模式基的问题,对FP-tree的数据结构进行修改,使得只需要保存FP-tree中每个叶子节点的父节点到根节点路径上项目组成的条件模式基,降低了保存条件模式基的存储空间开销。在分析最大频繁项目集挖掘算法中搜索空间以及数据表示方法的基础上,通过理论分析和证明,设计了剪枝策略和压缩策略,缩小了算法搜索空间,压缩了FP-tree的规模,提高了算法的执行效率。最后将新算法分别与NHTFPG算法、FpMAX算法进行对比,验证算法的正确性和有效性。实验结果表明,新算法保存FP-tree条件模式基所需要的存储空间不到NHTFPG算法的50%,执行效率比FpMAX算法提高了2~3倍。  相似文献   

12.
一种基于FP-Growth的频繁项目集并行挖掘算法   总被引:1,自引:0,他引:1  
FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式树,并对之进行挖掘得到局部频繁项目集,然后合并局部频繁项目集以得到全局频繁项集,由于此时得到的结果并不完备,所以对合并后未达到最小支持度阈值的项目集,重新计算其支持数。介绍了FPPM算法的设计思想,测试了其性能。实验结果表明FPPM算法具有较好的可扩展性。  相似文献   

13.
基于特征子空间的目标跟踪方法能适应目标状态的变化,并对光照等外部环境不敏感,但通常假定特征子空间的基向量固定,这样不仅需要离线训练,而且在目标姿态发生较大改变时,跟踪精度会降低。提出一种基于增量学习的Rao-Blackwellized粒子滤波算法,通过在线学习获得特征子空间的基向量,并用解析的方法对目标在子空间的投影参数进行在线更新。实验表明,新算法在目标有较大形变、姿态变化和光照等条件变化时,能保持较高跟踪精度,具有较强的鲁棒性。  相似文献   

14.
渐进不相似度逼近(IDA)算法是一种新近提出的高性能快速图像匹配算法,它通过分割匹配矢量,避免了大量的基于像素的计算。但是分割后的子矢量能量集中性差,因此算法效率仍有提升空间。为了改进能量集中性差这个问题,提出一种按子矢量方差顺序展开的方案,按该顺序展开子矢量能使匹配矢量排除得更快,平均展开的子矢量数下降,明显减少了搜索空间。除此之外,还加入了在IDA测试之前的利用整体矢量模的一次新的排除测试,并在子矢量展开中引入了PDS(partial distortion search)算法。本文改进算法对图像数据库中室内场景、室外自然场景和室外人文场景这3类图像进行测试时,整体匹配效率较IDA算法提升了72%~83%。  相似文献   

15.
Mining useful information and helpful knowledge from large databases has evolved into an important research area in recent years. Among the classes of knowledge derived, finding sequential patterns in temporal transaction databases is very important since it can help model customer behavior. In the past, researchers usually assumed databases were static to simplify data-mining problems. In real-world applications, new transactions may be added into databases frequently. Designing an efficient and effective mining algorithm that can maintain sequential patterns as a database grows is thus important. In this paper, we propose a novel incremental mining algorithm for maintaining sequential patterns based on the concept of pre-large sequences to reduce the need for rescanning original databases. Pre-large sequences are defined by a lower support threshold and an upper support threshold that act as gaps to avoid the movements of sequences directly from large to small and vice versa. The proposed algorithm does not require rescanning original databases until the accumulative amount of newly added customer sequences exceeds a safety bound, which depends on database size. Thus, as databases grow larger, the numbers of new transactions allowed before database rescanning is required also grow. The proposed approach thus becomes increasingly efficient as databases grow.  相似文献   

16.
针对FP-Growth算法在构建FP-tree过程中需要对事务数据库扫描两次,同时在利用FP-tree挖掘频繁项集过程中产生大量条件模式基和条件模式树的问题,提出一种改进的FP-Growth算法。该算法只需扫描一次事务数据库,就能构建一棵无相同节点的新的FP-tree;弃用项头表,新增与新的FP-tree关联的节点表,将构建新的FP-tree过程中"多余"的项信息存入节点表;利用新的FP-tree和节点表挖掘频繁项集。实验结果表明了该算法的可行性和有效性,其提高了数据挖掘的效率。  相似文献   

17.
基于邻接矩阵的FP-tree构造算法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种基于邻接矩阵的FP-tree构造方法。首先通过扫描数据库建立2-项集支持数的邻接矩阵,通过邻接矩阵对项进行过滤和新方式排序,然后再利用邻接矩阵构造FP-tree,使得FP-tree的分支、节点数和深度大幅度地减少,从而使存储空间减少、遍历时间缩短。最后使用标准数据集进行验证测试并和其他算法的比较,实验结果表明,该算法在保证结果的同时有效地提高频繁项集挖掘的效率。  相似文献   

18.
为了提高概念格生成的效率,证明了概念的生成及其插入位置只与最新生成的概念有关,与先前生成的大量概念无关。设计算法并编写程序,程序运行结果表明,在形式背景插入属性时,概念格中增加的新生概念数量较少,且不随概念格规模的增大而迅速增大,概念格生成时间明显缩短。  相似文献   

19.
针对构建FP-Tree时存在的大量内存消耗问题,提出了CCFP(constraint clip FP-tree)算法,该算法利用有项和缺项约束对事务数据库进行修剪后构造简化的FP-Tree,经再一次扫描后得到关联规则.实验结果表明:该算法较一般的FP-Tree算法能节省大量的内存空间,同时,运行效率也略有提高.  相似文献   

20.
In this paper, we present an improved incremental training algorithm for support vector machines (SVMs). Instead of selecting training samples randomly, we divide them into groups and apply the k-means clustering algorithm to collect the initial set of training samples. In active query, we assign a weight to each sample according to its confidence factor and its distance to the separating hyperplane. The confidence factor is calculated from the error upper bound of the SVM to indicate the closeness of the current hyperplane to the optimal hyperplane. A criterion is developed to eliminate non-informative training samples incrementally. Experimental results show our algorithm works successfully on artificial and real data, and is superior to the existing methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号