共查询到20条相似文献,搜索用时 357 毫秒
1.
改进的增量式关联规则维护算法 总被引:10,自引:0,他引:10
挖掘关联规则是数据挖掘研究的一个重要方面,而维护已发现的关联规则同样是重要的。在分析现有的关联规则算法IUA的基础上,指出了该算法的不足和错误之处,并加以改正,进而提出了一种改进的增量式更新算法EIUA。EIUA算法解决了在数据库D不变的情况下,当最小支持度和最小置信度二阈值发生变化时如何高效更新关联规则的问题。实验分析表明了新算法的有效性和优越性。 相似文献
2.
基于滑动窗口的聚集查询是数据流研究领域的一个热点问题。在已有的研究工作中,聚集算法都是针对立即执行的连续查询提出的,这些算法均是当数据流新到一个元组立即计算一次聚集结果。而在实际应用中,连续查询有时采取的是周期执行方式。论文针对周期执行的连续查询提出了复合滑动窗口聚集算法,即数据流新到一个元组,将它插入到基本窗口中,当基本窗口被插满时计算一次聚集结果。给出了非增量式和增量式两种算法。理论分析和实验结果表明增量式算法具有较好的性能。 相似文献
3.
随着程序的规模的扩大和复杂度的提高,通过直接分析源码进行程序切片,变得十分困难。在现有的利用编译优化技术来优化程序切片的方法中,存在无法有效利用程序的编译时信息和编译器的优化技术,以及对语言的支持不完善的问题。为此,分析了GCC编译器在编译时的中间表示,首次提出了基于GCC关键变量数据流分析算法的程序切片技术,以程序的GIMPLE中间表示为基础,以程序基本块为单位,通过迭代求解数据流方程,分析程序基本块内和不同基本块间的关键变量数据流信息。该程序切片技术可以获取源程序中仅与预设目标函数相关的关键变量和关键语句,缩减程序规模。最后通过实验,证明了该算法的可行性。 相似文献
4.
增量式K-Medoids聚类算法 总被引:3,自引:0,他引:3
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新。由于数据量大,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效,因此亟待研究增量式聚类算法。该文通过对K-Medoids聚类算法的改进,提出一种增量式K-Medoids聚类算法。它能够很好地解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。 相似文献
5.
6.
7.
增量式CURE聚类算法研究 总被引:3,自引:0,他引:3
聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的更新 .由于数据量大 ,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效 ,因此亟待研究增量式聚类算法 .通过对 CURE聚类算法的改进 ,提出了一种高效的增量式 CU RE聚类算法 .它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题 .实验结果显示本算法是一种有效的增量式聚类算法 相似文献
8.
数据流技术是一种正在兴起的新型数据形式,信息以数据序列的形式产生并且需要实时、持续地进行处理。数据流管理系统(DSMS)是面向数据流而设计的数据管理系统,它能有效地处理输入流数据并提供持续检索的功能。本文从整体上介绍数据流的相关技术,重点分析了DSMS的特点以及相应的查询算法的分析。 相似文献
9.
10.
一种高效的视图维护算法 总被引:7,自引:0,他引:7
通过选择性算法将增量式视图维护和视图自维护有效地融合在一起.同时它还利用相关性算法对不相关更新进行过滤,可以有效地降低消息总数和数据的通信量,从而大大提高视图维护的效率,具有现实的应用意义. 相似文献
11.
12.
《IEEE transactions on pattern analysis and machine intelligence》1990,16(2):129-140
Incremental data flow analysis algorithms have been designed to deal efficiently with change in evolving software systems. These algorithms document the current state of a software system by incorporating change effects into previously derived information describing the definition and use of data in the system. Unfortunately, the performance of these algorithms cannot, in general, be characterized by analytic predictions of their expected behavior. It is possible, however, to observe their performance empirically and predict their average behavior. The authors report on experiments on the empirical profiling of a general-purpose, incremental data flow analysis algorithm. The algorithm, dominator based and coded in C, was applied to statistically significant numbers of feasible, random software systems of moderate size. The experimental results, with quantifiable confidence limits, substantiate the claim that incremental analyses are viable and grow more valuable as a software system grows in size 相似文献
13.
14.
Steven Carroll Constantine Polychronopoulos 《International journal of parallel programming》2004,32(4):289-316
Extensibility in complex compiler systems goes well beyond modularity of design and it needs to be considered from the early stages of the design, especially the design of the Intermediate Representation. One of the primary barriers to compiler pass extensibility and modularity is interference between passes caused by transformations that invalidate existing analysis information. In this paper, we also present a callback system which is provided to automatically track changes to the compilers internal representation (IR) allowing full pass reordering and an easy-to-use interface for developing lazy update incremental analysis passes. We present a new algorithm for incremental interprocedural data flow analysis and demonstrate the benefits of our design framework and our prototype compiler system. It is shown that compilation time for multiple data flow analysis algorithms can be cut in half by incrementally updating data flow analysis. 相似文献
15.
Role Based Access Control (RBAC) has been widely used for restricting resource access to only authorized users. Administrative Role Based Access Control (ARBAC) specifies permissions for administrators to change RBAC policies. Due to complex interactions between changes made by different administrators, it is often difficult to comprehend the full effect of ARBAC policies by manual inspection alone. Policy analysis helps administrators detect potential flaws in the policy specification. Prior work on ARBAC policy analysis considers only static ARBAC policies. In
practice, ARBAC policies tend to change over time in order to fix design flaws or to cope with the changing requirements of an organization. Changes to ARBAC policies may invalidate security properties that were previously satisfied. In this paper, we present incremental analysis algorithms for evolving ARBAC. Our incremental algorithms
determine if a change may affect the analysis result, and if so, use the information of the previous analysis to incrementally update the analysis result. To the best of our knowledge, these are the first known incremental algorithms in literature for ARBAC analysis. Detailed evaluations show that our incremental algorithms outperform the
non-incremental algorithm in terms of execution time at a reasonable cost of increased disk space consumption. 相似文献
16.
17.
针对现实环境下数据集不断动态变化的特性,提出一种邻域决策粗糙集模型的增量式更新算法。采用由简单到复杂的研究思路,分析了邻域型信息系统论域增加和减少单个对象时,目标近似集与邻域类之间概率的变化规律,进一步地利用这种规律来构造单个对象变化时邻域决策粗糙集模型上下近似集的增量式更新,在单个对象变化的基础上,通过逐步迭代的方式设计了对象批量变化时的增量式更新算法。实验分析表明,所提出的算法具有较高的增量式更新性能,适用于动态数据环境下邻域决策粗糙集模型的动态更新。 相似文献
18.
在增量式关联规则更新算法的研究中,关于负增量式更新算法的研究比较少。提出了一种实用的在支持度和置信度不变的情况下数据集规模减小的负增量关联规则更新算法。算法在如何减少数据集的扫描次数,如何充分利用现有的信息减少候选集的规模等方面进行了研究,给出了算法的具体实现。通过分析,算法是可行的。 相似文献
19.
一种大规模的递增聚类算法及其在文档聚类中的应用 总被引:2,自引:0,他引:2
聚类是将数据进行划分,并从中发现有用信息的一种有效手段,它在很多领域都有着非常重要的应用。K均值方法是聚类方法中较常用的一种,但对于大规模的数据,而且有计算资源和时间约束的情况下,K均值方法已不能满足要求。该文提出的CFK-means方法是一种适合于大规模数据的、快速高效的递增聚类方法,它采用了聚类特性(Clus-teringFeatures,CF)结构来表示聚类,能更有效地保留和利用聚类信息。它只需扫描数据一次即可得到聚类划分,所需的计算时间和文件交换时间数倍少于K均值方法,而且聚类的准确度和K均值方法相当。通过对仿真数据和实际文本集数据进行的对比实验证明了CFK-means方法的有效性。 相似文献
20.
针对传统的聚类算法存在开销大、聚类质量差、聚类速度慢等问题,提出一种新的云计算环境下高复杂度动态数据的增量密度快速聚类算法。首先,依据密度对云计算环境下高复杂度动态数据进行聚类,从数据空间中找到部分子空间,使得数据映射至该空间后可产生高密度点集区域,将连通区域的集合看作聚类结果;其次,通过DBSCAN算法进行增量聚类,并对插入或删除数据导致的原聚类合并或分裂进行研究;最后,在更新的过程中通过改变核心状态数据的邻域中含有的全部核心数据进行处理,从插入或删除数据两方面进行增量聚类分析。实验结果表明,所提算法开销低、聚类速度快、聚类质量高。 相似文献