共查询到20条相似文献,搜索用时 234 毫秒
1.
最大频繁项集挖掘算法的分析研究 总被引:2,自引:0,他引:2
本文介绍了频繁项集挖掘的基本情况,用比较的方法通过示例分析、研究了两种最大频繁项集挖掘算法,并指出了最大频繁项集挖掘算法的局限性。进而阐述了最大频繁项集挖掘算法的特点及优化算法的途径。 相似文献
2.
提高频繁项集挖掘算法的效率是关联规则挖掘研究的一个重要内容。通过对不产生候选项频繁项集挖掘算法的分析,从子集的划分和局部频繁项集挖掘出发,提出了一种提高频繁项集挖掘算法效率的实现方法。实验表明,该方法对提高频繁项集挖掘算法的效率是有效的。 相似文献
3.
为解决传统最大频繁模式在项集频繁度与项集长度规模之间的制约关系,提出最大亚频繁模式概念及其挖掘算法MSFP-mining,包括最大亚频繁模式概念并分析其要素特点,基于AFP-tree、CMP-tree、SFP-tree、SFP-growth的候选MSFP挖掘方法,基于MSFP-tree的最大亚频繁模式超集检测和剪枝策略及对MSFP-mining挖掘性能的实验验证。实验结果表明,该算法利用差别频繁度实现核心项集、附加频繁项集、补充频繁项集的阶段性求取和组合,在保证项集频繁度基础上实现最大亚频繁模式挖掘,扩展频繁模式规模。 相似文献
4.
最大频繁项集挖掘用于发现频繁地出现在数据集中的最大子集,目前已经有许多有效的算法。应用蚁群算法挖掘最大频繁项集是一种新的方法,但是该算法往往迭代次数多,提取率低。结合频繁项集关联图和最大最小蚂蚁系统,提出一种新的蚁群算法。算法构造蚁群路径图,蚁群在动态的信息素和启发式因子指导下构造局部最大频繁项集,通过新的局部更新和全局更新机制发现全局最大频繁项集。对比实验表明,算法挖掘速度快,提取率高。 相似文献
5.
CHEN Chen 《数字社区&智能家居》2008,(32)
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。 相似文献
6.
频繁项集挖掘的研究与进展 总被引:6,自引:0,他引:6
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空间的类型、搜索方法和剪枝策略、数据库的表示方法、数据压缩技术等几个方面对频繁项集挖掘的基本策略进行了研究,对完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘的典型算法特别是最新算法进行了介绍和评述,并分析了各种算法的性能特点,指出其适于哪种类型的数据集。最后,对频繁项集挖掘算法的发展方向进行了初步的探讨。 相似文献
7.
给出将跨两表频繁项集挖掘方法扩展到跨三表频繁项集挖掘方法的技术,以三表频繁项集的公共属性记数集作为三方安全协议的参数,设计一个跨三表频繁项集挖掘的隐私保护算法,以便在挖掘求出跨三表频繁项集的同时保护三表中的隐私信息。理论分析和实验结果表明,算法安全、高效,具有可扩展性。 相似文献
8.
频繁项集的挖掘受到大量候选频繁项集和较高计算花费的限制,只挖掘最大长度频繁项集已满足很多应用。提出一种基于有序FP-tree结构挖掘最大长度频繁项集的算法。即对有序FP-tree的头表进行改造,增加一个max-level域,记录该项在有序FP-tree中的最大高度。挖掘时仅对max-level 大于等于已有最大长度频繁项集长度的项进行遍历,不产生条件模式基,无需递归构造条件FP-tree,且计算出最大长度频繁项集的支持度。实验结果表明该算法挖掘效率高、速度快。 相似文献
9.
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。 相似文献
10.
频繁项集挖掘是数据挖掘中的一个重要研究课题。在分析Apriori算法与FP-growth 算法特点的基础上,提出了一种改进的频繁项集挖掘算法,即索引生成频繁项集算法IGFA。IGFA算法基于Apriori算法并通过 “索引二元组”生成候选集,减免了候选集的大量冗余,实验及结果分析表明该算法有效提高了频繁项集的挖掘效率。 相似文献
11.
现有的数据挖掘方法大致有两类:有候选项集和无候选项集,有候选项集的挖掘以Apriori算法为代表,其特点是产生大量的候选项集,重复多次扫描数据库,挖掘效率低,不适合大型数据库的挖掘。无候选项集的挖掘以FP-T方法为代表,但它不能同时挖掘多概念层的关联规则,对具有超大项ID的大型数据库,无法生成“树”结构,使用也受到限制。该文将FP-T原理引入多层关联规则的并发挖掘,通过构建一个特殊节点链的指针表,可实现超大规模数据库的并发、多层挖掘。对实现物流系统信息自动化及其它数据挖掘应用领域都具有极其重要的指导意义。 相似文献
12.
13.
In this paper, given a set of sequence databases across multiple domains, we aim at mining multi-domain sequential patterns, where a multi-domain sequential pattern is a sequence of events whose occurrence time is within a pre-defined time window. We first propose algorithm Naive in which multiple sequence databases are joined as one sequence database for utilizing traditional sequential pattern mining algorithms (e.g., PrefixSpan). Due to the nature of join operations, algorithm Naive is costly and is developed for comparison purposes. Thus, we propose two algorithms without any join operations for mining multi-domain sequential patterns. Explicitly, algorithm IndividualMine derives sequential patterns in each domain and then iteratively combines sequential patterns among sequence databases of multiple domains to derive candidate multi-domain sequential patterns. However, not all sequential patterns mined in the sequence database of each domain are able to form multi-domain sequential patterns. To avoid the mining cost incurred in algorithm IndividualMine, algorithm PropagatedMine is developed. Algorithm PropagatedMine first performs one sequential pattern mining from one sequence database. In light of sequential patterns mined, algorithm PropagatedMine propagates sequential patterns mined to other sequence databases. Furthermore, sequential patterns mined are represented as a lattice structure for further reducing the number of sequential patterns to be propagated. In addition, we develop some mechanisms to allow some empty sets in multi-domain sequential patterns. Performance of the proposed algorithms is comparatively analyzed and sensitivity analysis is conducted. Experimental results show that by exploring propagation and lattice structures, algorithm PropagatedMine outperforms algorithm IndividualMine in terms of efficiency (i.e., the execution time). 相似文献
14.
Apriori算法在红外光谱数据挖掘中的应用 总被引:1,自引:0,他引:1
简要地介绍了在大规模数据库中挖掘关联规则的Apriori算法 ,给出了红外光谱数据库知识发现的空间表示方法 ,并根据红外光谱数据挖掘的特点改进了Apriori算法中支持度的计算与频繁集的确定过程 ,运用统计方法把挖掘结果形成可视的特征谱带 -化学基团规则式 ,通过具体的挖掘事例对挖掘结果进行分析与评价。挖掘出的规则式和波谱分析理论比较结果证明了挖掘结果的正确性 ,说明改进过的Apriori算法挖掘红外光谱数据库的有效性 相似文献
15.
“数据库主成份提取”方法及其应用 总被引:2,自引:0,他引:2
庞大数据库中所蕴藏着丰富而有益的数据信息正随着数据挖掘技术的发展得到进一步分析和挖掘。数据仓库作为数据挖掘的重要平台,其质量的高低将直接影响数据挖掘的效率。构建数据仓库是数据预处理的主要目标之一,“数据库主成份提取”方法可以在信息损失最小的前提下,利用了一种降维的方法,用少数综合变量来概括原多变量的数据库,使重新构建的数据仓库的数据量相对减少,使得数据类的概率分布尽可能的接近使用所有属性的原分布,从而使重新构建的数据仓库中的数据挖掘更加容易执行和高效率。数据库主成份提取分析方法对主成份的解释可以进一步明确影响整个数据仓库构成的主要因素和构成数据仓库系统的主要特征。 相似文献
16.
17.
To efficiently find global patterns from a multi-database, information in each local database must first be mined and summarized at the local level. Then only the summarized information is forwarded to the global mining process. However, conventional sequential pattern mining methods based on support cannot summarize the local information and is ineffective for global pattern mining from multiple data sources. In this paper, we present an alternative local mining approach for finding sequential patterns in the local databases of a multi-database. We propose the theme of approximate sequential pattern mining roughly defined as identifying patterns approximately shared by many sequences. Approximate sequential patterns can effectively summerize and represent the local databases by identifying the underlying trends in the data. We present a novel algorithm, ApproxMAP, to mine approximate sequential patterns, called consensus patterns, from large sequence databases in two steps. First, sequences are clustered by similarity. Then, consensus patterns are mined directly from each cluster through multiple alignment. We conduct an extensive and systematic performance study over synthetic and real data. The results demonstrate that ApproxMAP is effective and scalable in mining large sequences databases with long patterns. Hence, ApproxMAP can efficiently summarize a local database and reduce the cost for global mining. Furthremore, we present an elegant and uniform model to identify both high vote sequential patterns and exceptional sequential patterns from the collection of these consensus patterns from each local databases. 相似文献
18.
通过研究项集之间的关系,发现大项集之间存在着一种特定的关系,即k-项集一定是由一个(k-1)-项集加上一个单独的项构成的。基于这种项集关系,本文提出基于前缀树的TIUA算法,算法摆脱了传统算法多次迭代的不足,并利用挖掘出的结果,只需扫描一次数据库,就能满足各种要求,通过以空间换时间,达到提高挖掘效率的目的。 相似文献
19.
20.