首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
关联规则挖掘算法FP-Growth虽然效率比Apriori要快一个数量级,但存在频繁模式树可能过大而内存无法容纳和数据挖掘过程串行处理等两大缺点。提出一种分布式并行关联规则挖掘算法,该算法针对分布式应用数据架构,不需要产生全局FPtree,避免全局FP-tree可能过大而内存无法容纳的问题,算法在各个主要步骤上都实现了并行处理。算法测试结果和分析表明,与传统的关联规则挖掘算法FP-Growth相比,该算法通过多节点分布式并行处理显著提高了执行效率和处理能力。  相似文献   

2.
基于关联规则的分布式通信网告警相关性研究   总被引:3,自引:0,他引:3  
吴简  李兴明 《计算机科学》2009,36(11):204-207
描述了基于数据挖掘的通信网告警相关性分析.在分布式数据库中直接运用序列算法效率很低,因为这需要大量的额外通信.为此提出了一种有效的分布式关联规则挖掘算法--EDMA,它通过局部剪枝与全局剪枝来最小化候选项集数目和通信量.在局部站点上运用先进的压缩关联矩阵CMatrix统计局部项集支持数.此外还利用项目剪枝与交易剪枝共同来减少扫描时间.最后仿真验证了EDMA比其他经典分布式算法有更高的运算效率、更低的通信开销以及更好的可扩展性.  相似文献   

3.
刘天鹏  周娅 《计算机应用》2008,28(1):162-164,
在分析了现有分布式数据挖掘算法的运行机制和P2P技术具有无中心、不同步等特点的基础上,通过扩展经典K-mean算法的迭代过程,设计了一种能够用于P2P网络的分布式数据挖掘算法。该算法只需要在直接相连的节点间传递数据,并且能使每个节点上的数据按照全局聚类的结果聚合。最后用模拟实验验证了该算法的有效性。  相似文献   

4.
张诚  郑诚 《微机发展》2007,17(7):60-62
关联规则是数据挖掘研究中的一个重要的主题。一些算法都是假设数据中根本的关联基于时间是稳定的。然而,在现实世界领域,数据具有自己的特征,因此关联随着时间发生巨大的改变。现有的数据挖掘算法没有考虑关联的改变,这导致了严重的性能下降,特别是挖掘出的关联规则被用来分类和预测。尽管关联改变的挖掘是一个重要的问题,因为需要基于过去的历史数据来预测未来,现有的数据挖掘算法不符合这样的工作。文中引入模糊数据挖掘算法来发现基于时间的关联规则的改变。基于挖掘出的模糊规则,能预测关联规则在未来如何改变。实验表明了算法的有效性。  相似文献   

5.
关联规则是数据挖掘研究中的一个重要的主题。一些算法都是假设数据中根本的关联基于时间是稳定的。然而,在现实世界领域,数据具有自己的特征,因此关联随着时间发生巨大的改变。现有的数据挖掘算法没有考虑关联的改变,这导致了严重的性能下降,特别是挖掘出的关联规则被用来分类和预测。尽管关联改变的挖掘是一个重要的问题,因为需要基于过去的历史数据来预测未来,现有的数据挖掘算法不符合这样的工作。文中引入模糊数据挖掘算法来发现基于时间的关联规则的改变。基于挖掘出的模糊规则,能预测关联规则在未来如何改变。实验表明了算法的有效性。  相似文献   

6.
桂现才  彭宏 《微机发展》2005,15(10):35-38
在大型数据库项目之间发现关联规则是一个重要的数据挖掘问题,而挖掘出的关联规则数目常常是巨大的。文中介绍了简单关联规则和原关联规则的概念,而传统算法挖掘出的关联规则集中的任何规则,均可以由原关联规则导出,并且原关联规则的数目远远小于传统算法挖掘出的关联规则数目。对简单关联规则和原关联规则进行了分析比较,给出了挖掘原关联规则算法,并举例说明算法的执行过程。  相似文献   

7.
在大型数据库项目之间发现关联规则是一个重要的数据挖掘问题,而挖掘出的关联规则数目常常是巨大的.文中介绍了简单关联规则和原关联规则的概念,而传统算法挖掘出的关联规则集中的任何规则,均可以由原关联规则导出,并且原关联规则的数目远远小于传统算法挖掘出的关联规则数目.对简单关联规则和原关联规则进行了分析比较,给出了挖掘原关联规则算法,并举例说明算法的执行过程.  相似文献   

8.
数据挖掘当下已成为十分热门的话题,人们对它将随之带来长远的经济社会效益清晰可见。面对现今要处理如此庞大的数据量,高效、准确地挖掘出数据中的有效信息十分必要。在数据挖掘领域中,关联规则旨在找出数据集中项与项之间未知的关系,进而可以从挖掘出的数据对象信息中得到我们需要的信息。Apriori算法是关联规则里的一项基本算法,也是数据挖掘领域十大经典算法之一,可以利用它挖掘数据集中数据项间的潜在关系。  相似文献   

9.
基于数据库划分的关联规则算法   总被引:1,自引:0,他引:1  
关联规则是数据挖掘的一个重要研究方向.分析了FP算法的优缺点,提出了一种基于数据库划分的算法PFp算法,从理论上证明了该算法的正确性.该方法将事务数据库划分为子事务数据库,在子事务数据库中挖掘局部频繁项集,并入到全局频繁项集中,采用连接和剪枝策略有效挖掘出局部不频繁但全局频繁的频繁项集.实验结果表明,该算法比FP算法更加有效.  相似文献   

10.
目前的数据挖掘基本上都是基于普通数据集的挖掘,针对星型模式结构的数据挖掘的研究工作较少,为此定义星型模式挖掘结构,并在此基础上构建一种关联规则挖掘算法,该算法先扫描事实表,产生最大频繁项集和关联规则,进而以此为基础,提出一种基于连接条件和关联规则局部有效性的理论,并在此基础上建立一种快速扫描维表属性的方法,一次产生维表隐藏的关联规则,这个扫描是基于局部的,不是基于全局的,同时可根据需要,对于不明确的关联规则,通过构建扩展的维表,进行隐知识的挖掘。算法挖掘速度快,若合理地构建扩展维表,能够发现扩展的隐藏信息。  相似文献   

11.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低.矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显.该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需...  相似文献   

12.
基于频繁模式树的分布式关联规则挖掘算法   总被引:1,自引:0,他引:1  
何波 《控制与决策》2012,27(4):618-622
提出一种基于频繁模式树的分布式关联规则挖掘算法(DMARF).DMARF算法设置了中心结点,利用局部频繁模式树让各计算机结点快速获取局部频繁项集,然后与中心结点交互实现数据汇总,最终获得全局频繁项集.DMARF算法采用顶部和底部策略,能大幅减少候选项集,降低通信量.理论分析和实验结果均表明了DMARF算法是快速而有效的.  相似文献   

13.
基于免疫算法的多维关联规则挖掘方法   总被引:1,自引:0,他引:1  
关联规则挖掘是一个重要的数据挖掘问题,文章给出了一种基于免疫算法的多维关联规则挖掘算法,算法充分利用了免疫记忆特性,把挖掘的关联规则存入记忆库,加快了关联规则的挖掘速度。实验结果表明该算法具有较好的鲁棒性,能快速、有效地进行全局优化搜索。特别适用于大规模、海量数据库的挖掘。  相似文献   

14.
基于免疫遗传算法的多维关联规则挖掘   总被引:7,自引:1,他引:7  
高坚 《计算机工程与应用》2003,39(32):185-186,225
关联规则挖掘是数据挖掘中一个很重要的研究课题。文章给出了一种基于免疫遗传算法的关联规则挖掘算法,该算法具有很好的鲁棒性和隐含并行性,能快速、有效地进行全局优化搜索。特别适用于大规模、海量数据库的挖掘。  相似文献   

15.
We propose a novel framework for generating classification rules from relational data. This is a specialized version of the general framework intended for mining relational data and is defined in granular computing theory. In the framework proposed in this paper we define a method for deriving information granules from relational data. Such granules are the basis for generating relational classification rules. In our approach we follow the granular computing idea of switching between different levels of granularity of the universe. Thanks to this a granule-based relational data representation can easily be replaced by another one and thereby adjusted to a given data mining task, e.g. classification. A generalized relational data representation, as defined in the framework, can be treated as the search space for generating rules. On account of this the size of the search space may significantly be limited. Furthermore, our framework, unlike others, unifies not only the way the data and rules to be derived are expressed and specified, but also partially the process of generating rules from the data. Namely, the rules can be directly obtained from the information granules or constructed based on them.  相似文献   

16.
Association rules mining has attracted much attention among data mining topics because it has been successfully applied in various fields to find the association between purchased items by identifying frequent patterns (FPs). Currently, databases are huge, ranging in size from terabytes to petabytes. Although past studies can effectively discover FPs to deduce association rules, the execution efficiency is still a critical problem, particularly for big data. Progressive size working set (PSWS) and parallel FP-growth (PFP) are state-of-the-art methods that have been applied successfully to parallel and distributed computing technology to improve mining processing time in many-task computing, thereby bridging the gap between high-throughput and high-performance computing. However, such methods cannot mine before obtaining a complete FP-tree or the corresponding subdatabase, causing a high idle time for computing nodes. We propose a method that can begin mining when a small part of an FP-tree is received. The idle time of computing nodes can be reduced, and thus, the time required for mining can be reduced effectively. Through an empirical evaluation, the proposed method is shown to be faster than PSWS and PFP.  相似文献   

17.
关联规则挖掘作为近年来的研究热点之一,其经典算法Apriori算法因需要多次扫描数据库且会产生大量候选项集,严重影响了关联规则的挖掘效率.在此基础上提出了一种基于矩阵压缩的加权关联规则挖掘算法,只需扫描一次数据库,并将其转换为0-1矩阵,根据相关性质对矩阵进行压缩,从而降低了算法执行过程中的计算量;同时,考虑到项目的重要性,采取加权的方法,用求概率的方式设置项目属性的权值.同Apriori算法相比,本算法在挖掘过程中能直接查找高阶频繁项集.实验结果表明,本算法能有效提高关联规则的挖掘效率.  相似文献   

18.
原始数据集中含有大量噪声数据,且数据的规模很大,直接进行关联规则挖掘会影响准确度和效率。文章提出了一种对原始数据先进行聚类,再提取关联规则的挖掘策略,可以在一定程度内减少噪声数据的干扰,消除数据对象中的冗余属性,提高规则挖掘的有效性。  相似文献   

19.
Mining association rules and mining sequential patterns both are to discover customer purchasing behaviors from a transaction database, such that the quality of business decision can be improved. However, the size of the transaction database can be very large. It is very time consuming to find all the association rules and sequential patterns from a large database, and users may be only interested in some information.

Moreover, the criteria of the discovered association rules and sequential patterns for the user requirements may not be the same. Many uninteresting information for the user requirements can be generated when traditional mining methods are applied. Hence, a data mining language needs to be provided such that users can query only interesting knowledge to them from a large database of customer transactions. In this paper, a data mining language is presented. From the data mining language, users can specify the interested items and the criteria of the association rules or sequential patterns to be discovered. Also, the efficient data mining techniques are proposed to extract the association rules and the sequential patterns according to the user requirements.  相似文献   


20.
针对关联数据集合呈现出的大数据特性和蕴含的语义信息,提出了首先建立关联数据集的模式级链接,再进行关联规则挖掘的方法。在同领域RDF数据集上定义RDF数据项模式并提出数据项模式的产生规则;利用RDF数据查询技术从数据项模式获得RDF数据项集合,进而再推导出特定领域内的关联规则。提出的基于关联数据RDF数据项模式的关联规则挖掘方法将关联规则挖掘扩展到同一领域内的数据集合而不再局限于单一数据集,同时给出了基于Hadoop的大规模RDF数据集上的关联规则挖掘的实现方案。实验结果验证了模式级链接对于关联规则挖掘的价值和所提方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号