首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
最大频繁项集挖掘算法的分析研究   总被引:2,自引:0,他引:2  
本文介绍了频繁项集挖掘的基本情况,用比较的方法通过示例分析、研究了两种最大频繁项集挖掘算法,并指出了最大频繁项集挖掘算法的局限性。进而阐述了最大频繁项集挖掘算法的特点及优化算法的途径。  相似文献   

2.
提高频繁项集挖掘算法的效率是关联规则挖掘研究的一个重要内容。通过对不产生候选项频繁项集挖掘算法的分析,从子集的划分和局部频繁项集挖掘出发,提出了一种提高频繁项集挖掘算法效率的实现方法。实验表明,该方法对提高频繁项集挖掘算法的效率是有效的。  相似文献   

3.
为解决传统最大频繁模式在项集频繁度与项集长度规模之间的制约关系,提出最大亚频繁模式概念及其挖掘算法MSFP-mining,包括最大亚频繁模式概念并分析其要素特点,基于AFP-tree、CMP-tree、SFP-tree、SFP-growth的候选MSFP挖掘方法,基于MSFP-tree的最大亚频繁模式超集检测和剪枝策略及对MSFP-mining挖掘性能的实验验证。实验结果表明,该算法利用差别频繁度实现核心项集、附加频繁项集、补充频繁项集的阶段性求取和组合,在保证项集频繁度基础上实现最大亚频繁模式挖掘,扩展频繁模式规模。  相似文献   

4.
挖掘最大频繁项集的改进蚁群算法   总被引:1,自引:0,他引:1       下载免费PDF全文
最大频繁项集挖掘用于发现频繁地出现在数据集中的最大子集,目前已经有许多有效的算法。应用蚁群算法挖掘最大频繁项集是一种新的方法,但是该算法往往迭代次数多,提取率低。结合频繁项集关联图和最大最小蚂蚁系统,提出一种新的蚁群算法。算法构造蚁群路径图,蚁群在动态的信息素和启发式因子指导下构造局部最大频繁项集,通过新的局部更新和全局更新机制发现全局最大频繁项集。对比实验表明,算法挖掘速度快,提取率高。  相似文献   

5.
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。  相似文献   

6.
频繁项集挖掘的研究与进展   总被引:6,自引:0,他引:6  
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空间的类型、搜索方法和剪枝策略、数据库的表示方法、数据压缩技术等几个方面对频繁项集挖掘的基本策略进行了研究,对完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘的典型算法特别是最新算法进行了介绍和评述,并分析了各种算法的性能特点,指出其适于哪种类型的数据集。最后,对频繁项集挖掘算法的发展方向进行了初步的探讨。  相似文献   

7.
给出将跨两表频繁项集挖掘方法扩展到跨三表频繁项集挖掘方法的技术,以三表频繁项集的公共属性记数集作为三方安全协议的参数,设计一个跨三表频繁项集挖掘的隐私保护算法,以便在挖掘求出跨三表频繁项集的同时保护三表中的隐私信息。理论分析和实验结果表明,算法安全、高效,具有可扩展性。  相似文献   

8.
频繁项集的挖掘受到大量候选频繁项集和较高计算花费的限制,只挖掘最大长度频繁项集已满足很多应用。提出一种基于有序FP-tree结构挖掘最大长度频繁项集的算法。即对有序FP-tree的头表进行改造,增加一个max-level域,记录该项在有序FP-tree中的最大高度。挖掘时仅对max-level 大于等于已有最大长度频繁项集长度的项进行遍历,不产生条件模式基,无需递归构造条件FP-tree,且计算出最大长度频繁项集的支持度。实验结果表明该算法挖掘效率高、速度快。  相似文献   

9.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

10.
改进的频繁项集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
频繁项集挖掘是数据挖掘中的一个重要研究课题。在分析Apriori算法与FP-growth 算法特点的基础上,提出了一种改进的频繁项集挖掘算法,即索引生成频繁项集算法IGFA。IGFA算法基于Apriori算法并通过 “索引二元组”生成候选集,减免了候选集的大量冗余,实验及结果分析表明该算法有效提高了频繁项集的挖掘效率。  相似文献   

11.
何友全 《计算机工程》2006,32(15):87-89
现有的数据挖掘方法大致有两类:有候选项集和无候选项集,有候选项集的挖掘以Apriori算法为代表,其特点是产生大量的候选项集,重复多次扫描数据库,挖掘效率低,不适合大型数据库的挖掘。无候选项集的挖掘以FP-T方法为代表,但它不能同时挖掘多概念层的关联规则,对具有超大项ID的大型数据库,无法生成“树”结构,使用也受到限制。该文将FP-T原理引入多层关联规则的并发挖掘,通过构建一个特殊节点链的指针表,可实现超大规模数据库的并发、多层挖掘。对实现物流系统信息自动化及其它数据挖掘应用领域都具有极其重要的指导意义。  相似文献   

12.
决策树算法的并行性研究   总被引:17,自引:0,他引:17  
在数据库和数据仓库中运用数据挖掘技术必须考虑挖掘系统的速度问题。当数据集大到相当程度时,挖掘工作只能在巨型机上进行;而由于系统的速度不够快,挖掘出来的知识将会是滞后的,它对决策支持不仅无效甚至是有害的。针对这一问题,提出了决策树算法的并行机制,并对并行性的性能进行探讨。  相似文献   

13.
In this paper, given a set of sequence databases across multiple domains, we aim at mining multi-domain sequential patterns, where a multi-domain sequential pattern is a sequence of events whose occurrence time is within a pre-defined time window. We first propose algorithm Naive in which multiple sequence databases are joined as one sequence database for utilizing traditional sequential pattern mining algorithms (e.g., PrefixSpan). Due to the nature of join operations, algorithm Naive is costly and is developed for comparison purposes. Thus, we propose two algorithms without any join operations for mining multi-domain sequential patterns. Explicitly, algorithm IndividualMine derives sequential patterns in each domain and then iteratively combines sequential patterns among sequence databases of multiple domains to derive candidate multi-domain sequential patterns. However, not all sequential patterns mined in the sequence database of each domain are able to form multi-domain sequential patterns. To avoid the mining cost incurred in algorithm IndividualMine, algorithm PropagatedMine is developed. Algorithm PropagatedMine first performs one sequential pattern mining from one sequence database. In light of sequential patterns mined, algorithm PropagatedMine propagates sequential patterns mined to other sequence databases. Furthermore, sequential patterns mined are represented as a lattice structure for further reducing the number of sequential patterns to be propagated. In addition, we develop some mechanisms to allow some empty sets in multi-domain sequential patterns. Performance of the proposed algorithms is comparatively analyzed and sensitivity analysis is conducted. Experimental results show that by exploring propagation and lattice structures, algorithm PropagatedMine outperforms algorithm IndividualMine in terms of efficiency (i.e., the execution time).  相似文献   

14.
Apriori算法在红外光谱数据挖掘中的应用   总被引:1,自引:0,他引:1  
简要地介绍了在大规模数据库中挖掘关联规则的Apriori算法 ,给出了红外光谱数据库知识发现的空间表示方法 ,并根据红外光谱数据挖掘的特点改进了Apriori算法中支持度的计算与频繁集的确定过程 ,运用统计方法把挖掘结果形成可视的特征谱带 -化学基团规则式 ,通过具体的挖掘事例对挖掘结果进行分析与评价。挖掘出的规则式和波谱分析理论比较结果证明了挖掘结果的正确性 ,说明改进过的Apriori算法挖掘红外光谱数据库的有效性  相似文献   

15.
“数据库主成份提取”方法及其应用   总被引:2,自引:0,他引:2  
庞大数据库中所蕴藏着丰富而有益的数据信息正随着数据挖掘技术的发展得到进一步分析和挖掘。数据仓库作为数据挖掘的重要平台,其质量的高低将直接影响数据挖掘的效率。构建数据仓库是数据预处理的主要目标之一,“数据库主成份提取”方法可以在信息损失最小的前提下,利用了一种降维的方法,用少数综合变量来概括原多变量的数据库,使重新构建的数据仓库的数据量相对减少,使得数据类的概率分布尽可能的接近使用所有属性的原分布,从而使重新构建的数据仓库中的数据挖掘更加容易执行和高效率。数据库主成份提取分析方法对主成份的解释可以进一步明确影响整个数据仓库构成的主要因素和构成数据仓库系统的主要特征。  相似文献   

16.
WebLog访问序列模式挖掘将数据挖掘中的序列模式技术应用于Web服务器上的日志文件,以此来改善Web的信息服务,而在对海量的数据挖掘时,系统资源开销很大。该文结合SPAM、PrefixSpan的思想,提出一个新的算法——SPAM-FPT,该算法通过建立First_Positon_Table,避免了SPAM中的“与操作”、“连接操作”以及PrefixSpan中大量的“投影数据库”的建立,可以快捷地挖掘数据库中所有“频繁子序列”。  相似文献   

17.
Sequential Pattern Mining in Multi-Databases via Multiple Alignment   总被引:2,自引:0,他引:2  
To efficiently find global patterns from a multi-database, information in each local database must first be mined and summarized at the local level. Then only the summarized information is forwarded to the global mining process. However, conventional sequential pattern mining methods based on support cannot summarize the local information and is ineffective for global pattern mining from multiple data sources. In this paper, we present an alternative local mining approach for finding sequential patterns in the local databases of a multi-database. We propose the theme of approximate sequential pattern mining roughly defined as identifying patterns approximately shared by many sequences. Approximate sequential patterns can effectively summerize and represent the local databases by identifying the underlying trends in the data. We present a novel algorithm, ApproxMAP, to mine approximate sequential patterns, called consensus patterns, from large sequence databases in two steps. First, sequences are clustered by similarity. Then, consensus patterns are mined directly from each cluster through multiple alignment. We conduct an extensive and systematic performance study over synthetic and real data. The results demonstrate that ApproxMAP is effective and scalable in mining large sequences databases with long patterns. Hence, ApproxMAP can efficiently summarize a local database and reduce the cost for global mining. Furthremore, we present an elegant and uniform model to identify both high vote sequential patterns and exceptional sequential patterns from the collection of these consensus patterns from each local databases.  相似文献   

18.
通过研究项集之间的关系,发现大项集之间存在着一种特定的关系,即k-项集一定是由一个(k-1)-项集加上一个单独的项构成的。基于这种项集关系,本文提出基于前缀树的TIUA算法,算法摆脱了传统算法多次迭代的不足,并利用挖掘出的结果,只需扫描一次数据库,就能满足各种要求,通过以空间换时间,达到提高挖掘效率的目的。  相似文献   

19.
贾文  臧明相  周鸿 《微机发展》2006,16(12):178-180
关联规则是数据库中某些特定事件同时发生的概率的简单陈述。关联规则挖掘就是利用特定方法发掘数据库中潜藏的关联规则的过程。文中主要运用数据挖掘中的关联规则和AprioriTid算法,以考务数据库为挖掘对象,并在挖掘过程中充分运用数据库技术适时地对挖掘数据进行筛选,有效地提高了挖掘效率。最后,对课程间的相关性进行了分析和研究,得到了有效性的结论。  相似文献   

20.
于永玲  李向  宗思生  施进发 《微机发展》2013,(12):161-163,167
为了建立数字校园信息平台,必须对校园GIS数据进行分析和挖掘。文中提出将校园GIS与数据挖掘系统进行集成,空间数据库系统负责空间信息抽取,GIS实现对挖掘结果进行可视化显示。搭建一个空间数据挖掘原型系统模型,利用设计的挖掘算法,挖掘出空间数据库中隐含的知识,并将空间数据挖掘结果进行可视化输出。该原型系统已成功应用于某高校校园GIS,不仅可以挖掘显示知识(校园每个教学楼的上座率),还可以发现隐藏在校园GIS中的隐式知识,是对现有空间数据挖掘系统的有益改进和补充。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号