首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
频繁集挖掘是总结二进制数据的重要技术,但如何找到一个二进制数据集与频繁集挖掘结果相一致却十分困难。文中从可计算复杂度的观点研究了频繁集的隐私保持。特别分析了反频繁挖掘问题的可计算复杂度。给出了决定是否存在与一个已知频繁集兼容的数据集是一个NP难度问题;当原始数据集d由6个集合组成时计算与已知频繁集兼容的数据集的数量是一个p类完全问题。  相似文献   

2.
吕品  董武世 《计算机工程与应用》2006,42(24):179-180,186
数据挖掘作为应用于数据分析的工具,往往会从大型数据库中毫无保留地揭露某些重要信息,这些重要信息由于一定的原因不能向外界透露。所以可以通过构造具有与原始的频繁集一样的特征的虚拟数据集来替代频繁集挖掘结果。文章给出了一种近似的反频繁集挖掘方法,分析了它的可计算复杂度,得出了近似反频繁集挖掘是一个NP完全问题,提出了近似的反频繁集挖掘的下一步研究重点。  相似文献   

3.
关联规则的高效挖掘算法研究   总被引:4,自引:0,他引:4  
关联规则的挖掘是一个重要的数据挖掘问题,对其挖掘算法的研究具有十分重要的意义,经典的关联规则发现算法是一个多次遍历的算法,计算的复杂度较同,本文给出一种关联规则频繁数据集的发现算法,只需对交易序列扫描两次即可发现数据采的频繁数据集,算法效率得到了较好地提高。  相似文献   

4.
黄勇  赵靖 《微机发展》2011,(2):147-150
分布式系统下关联规则挖掘算法的挖掘效率取决于频繁项目集的确定和网络各站点间的通讯量。为提高频繁项目集的生成效率,提出了关系数据库下一种新的数据预处理方法以及一种基于数组形式的频繁项目集生成算法。新的数据预处理方法可以降低候选项目集的数量,基于二进制的数组只需进行逻辑与运算便可生成频繁项目集,将该算法结合星型网络结构下的分布式挖掘算法SDMA应用于实验挖掘,理论分析与实验结果表明,算法提高了挖掘效率,是可行的。  相似文献   

5.
一种基于分布式数据库的关联规则挖掘新算法   总被引:1,自引:0,他引:1  
分布式系统下关联规则挖掘算法的挖掘效率取决于频繁项目集的确定和网络各站点间的通讯量.为提高频繁项目集的生成效率.提出了关系数据库下一种新的数据预处理方法以及一种基于数组形式的频繁项目集生成算法.新的数据预处理方法可以降低候选项目集的数量,基于二进制的数组只需进行逻辑与运算便可生成频繁项目集,将该算法结合星型网络结构下的分布式挖掘算法 SDMA 应用于实验挖掘,理论分析与实验结果表明,算法提高了挖掘效率,是可行的.  相似文献   

6.
发现频繁项集是关联规则挖掘中最基本、最重要的问题.提出了一种基于二进制表示的频繁项集挖掘算法,并利用二进制的性质快速产生候选项集并计算其支持度.算法总体性能在一定程度上得到了提高.  相似文献   

7.
为了易于产生候选频繁项目集和计算项目集的支持数,提出了基于二进制的关联规则挖掘算法,但在搜索候选频繁项目集时仍从集合论出发,沿用传统搜索超集或子集的方法,在一定程度上效率受到了限制;为此提出了一种基于二进制的交叉挖掘关联规则算法,通过数值的递增和递减交叉方式自动产生候选频繁项集,缩短了候选频繁项的搜索空间,并在计算支持数时通过数字特征减少了扫描事务的个数,算法的效率得到了明显提高;该实验结果表明:与现有的二进制关联规则挖掘算法相比,算法是快速而有效的。  相似文献   

8.
基于二进制的长频繁项目集挖掘算法   总被引:1,自引:1,他引:0  
结合挖掘长频繁项目集的自顶向下搜索策略,提出一种基于二进制的长频繁项目集挖掘算法.该算法用数值递减搜索策略产生候选项,在用到频繁项目集修剪其子集减少候选项的基础上还通过事务特征减少搜索事务数,并运用二进制的逻辑"与"运算计算支持数,提高了算法的效率.算法分析和实验表明,该算法是有效的、快速的.  相似文献   

9.
图挖掘是数据挖掘的一个重要研究方向,而图挖掘主要集中在图数据集内频繁子图的挖掘。频繁子图挖掘技术的关键是建立有效机制减少冗余候选子图,以便高效计算和处理所需的频繁子图。提出了一种基于路径的频繁子图挖掘算法,该算法首先找出所有频繁边从而挖掘出频繁单路径,然后通过组合、双射和操作扩展出较多的频繁路径,再通过连接操作产生所有频繁子图候选集。通过定理证明了该算法的正确性和完整性,从理论上分析了该算法时间复杂度低于现有的算法,最后进行了2个图数据集实验,在候选集产生的数量和时间性能2方面验证了算法的优越性。  相似文献   

10.
李海峰 《计算机工程》2011,37(14):59-61
提出一种采用图形处理器挖掘闭合频繁项集的方法,用二进制数据表示项集,利用单指令多数据的体系结构实现并行计算,结合项集索引树,可以提高项集支持度计算和项集查找的速度。在2种数据集上的实验结果表明,该方法能够用更少的空间保存频繁项集的全部信息,并减少挖掘时间。  相似文献   

11.
Apriori算法在挖掘频繁项集时需要多次扫描数据库,这样会因为频繁的IO操作而导致效率低下。为了改进算法的执行效率,提出BE-Apriori(binay encoded Apriori)算法,其充分利用了二进制数相比编程语言中各种数据结构在内存及运算速度上的优势,对事务记录进行二进制编码后加载到内存,然后利用等效的二进制数之间运算代替集合之间的运算。分析了算法性能,并利用UCI数据集中的毒蘑菇数据对BE-Apriori算法进行实验验证。结果表明BE-Apriori可以正确挖掘频繁项集,并且相比Apriori算法有着更好的性能。  相似文献   

12.
现有大部分微阵列数据中频繁闭合项集的挖掘需要事先给定最小支持度,但在实际应用中该最小支持度很难确定。针对该问题,提出top-k频繁闭合项集挖掘算法,基于自顶向下宽度优先搜索策略挖掘项集长度不小于min_l的top-k频繁闭合项集,并对搜索空间进行有效修剪,从而提高搜索速度。实验结果表明,该算法的时间性能在多数情况下优于CARPENTER算法。  相似文献   

13.
We study the complexity of processing a class of rules called simple binary rule sets. The data referenced by the rules are stored in secondary memory. A necessary and sufficient condition that a simple binary rule set can be processed in a single pass of a file containing the base relations is given. Because not all simple binary rule sets can be processed in a single pass, a necessary and sufficient condition that a simple binary rule set can be processed by a constant number of passes is also given  相似文献   

14.
提出一种基于位处理技术的三维数据挖掘算法——BD-Peeler算法。该算法利用计算机每次处理32位数据的特性,将三维数据集按位存储,最大限度地提高每次运算处理数据集的数据量。实验结果表明,与Data-Peeler算法相比,该算法可以更快速有效地挖掘出三维数据集中的闭频繁项集。  相似文献   

15.
In standard frequent item set mining a transaction supports an item set only if all items in the set are present. However, in many cases this is too strict a requirement that can render it impossible to find certain relevant groups of items. By relaxing the support definition, allowing for some items of a given set to be missing from a transaction, this drawback can be amended. The resulting item sets have been called approximate, fault-tolerant or fuzzy item sets. In this paper we present two new algorithms to find such item sets: the first is an extension of item set mining based on cover similarities and computes and evaluates the subset size occurrence distribution with a scheme that is related to the Eclat algorithm. The second employs a clustering-like approach, in which the distances are derived from the item covers with distance measures for sets or binary vectors and which is initialized with a one-dimensional Sammon projection of the distance matrix. We demonstrate the benefits of our algorithms by applying them to a concept detection task on the 2008/2009 Wikipedia Selection for schools and to the neurobiological task of detecting neuron ensembles in (simulated) parallel spike trains.  相似文献   

16.
An efficient algorithm for discovering frequent subgraphs   总被引:8,自引:0,他引:8  
Over the years, frequent itemset discovery algorithms have been used to find interesting patterns in various application areas. However, as data mining techniques are being increasingly applied to nontraditional domains, existing frequent pattern discovery approaches cannot be used. This is because the transaction framework that is assumed by these algorithms cannot be used to effectively model the data sets in these domains. An alternate way of modeling the objects in these data sets is to represent them using graphs. Within that model, one way of formulating the frequent pattern discovery problem is that of discovering subgraphs that occur frequently over the entire set of graphs. We present a computationally efficient algorithm, called FSG, for finding all frequent subgraphs in large graph data sets. We experimentally evaluate the performance of FSG using a variety of real and synthetic data sets. Our results show that despite the underlying complexity associated with frequent subgraph discovery, FSG is effective in finding all frequently occurring subgraphs in data sets containing more than 200,000 graph transactions and scales linearly with respect to the size of the data set.  相似文献   

17.
一种基于关联规则挖掘的组织数据方法   总被引:3,自引:0,他引:3       下载免费PDF全文
孔令富  王晗  练秋生 《计算机工程》2006,32(21):12-14,5
针对在数据挖掘中采用二进制转换的方法,定义了二进制序列集的相关概念并为此提供依据。分析了事务与关联规则在二进制序列集中的表示方法及其在空间、时间上的复杂度。通过实验验证,在关联规则数据挖掘中采用二进制序列集这一组织数据方法是有效且可行的。  相似文献   

18.
最大频繁项集挖掘算法存在扫描数据集次数多和候选集规模过大等局限。基于Iceberg概念格模型,提出一种在Iceberg概念格上挖掘最大频繁项集的算法ICMFIA。该算法通过一次扫描数据集构建Iceberg概念格,利用Iceberg概念格中频繁概念之间良好的覆盖关系能快速计算出最大频繁项集所对应的最大频繁概念,所有最大频繁概念的内涵就是所求的最大频繁项集的集合。实验结果表明,该算法具有扫描数据集次数少和挖掘效率高的优点。  相似文献   

19.
A graph-based approach to document classification is described in this paper. The graph representation offers the advantage that it allows for a much more expressive document encoding than the more standard bag of words/phrases approach, and consequently gives an improved classification accuracy. Document sets are represented as graph sets to which a weighted graph mining algorithm is applied to extract frequent subgraphs, which are then further processed to produce feature vectors (one per document) for classification. Weighted subgraph mining is used to ensure classification effectiveness and computational efficiency; only the most significant subgraphs are extracted. The approach is validated and evaluated using several popular classification algorithms together with a real world textual data set. The results demonstrate that the approach can outperform existing text classification algorithms on some dataset. When the size of dataset increased, further processing on extracted frequent features is essential.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号