首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 55 毫秒
1.
无候选项的频繁邻近类别集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对现有的频繁邻近类别集挖掘算法因产生候选项而存在冗余计算,提出一种无候选项的频繁邻近类别集挖掘算法,其适合在海量数据中挖掘空间对象的频繁邻近类别集;该算法以交叉搜索方式,用产生邻近类别集非空真子集的方法来计算支持数,实现一次扫描数据库挖掘频繁邻近类别集。算法无需产生候选频繁邻近类别集,且计算支持数时无需重复扫描数据库,达到了提高挖掘效率的目的。实验结果表明其在海量空间数据中挖掘频繁邻近类别集时,该算法比现有算法更快速更有效。  相似文献   

2.
方刚  熊江 《计算机工程》2011,37(13):58-60
在空间数据库中挖掘带约束条件的频繁邻近类别集时,使用传统约束性关联规则的挖掘算法存在冗余候选项和重复计算等问题。为此,提出一种带约束条件的频繁邻近类别集挖掘算法,该算法以邻近类别集标识值双向变化的方法产生候选频繁邻近类别集,通过标识值的“与”运算计算支持数,达到提高算法挖掘效率的目的。实验结果表明,该算法比现有算法更简单快速。  相似文献   

3.
方刚 《计算机工程》2012,38(11):62-65
在幂集理论的基础上,引入约束幂集概念,提出一种依赖于约束幂集的频繁邻近类别集(NCS)挖掘算法。该算法采用计算约束幂集映射的方法,生成候选频繁NCS并计算支持数,使其能避免冗余候选项的产生以及减少对数据库的重复扫描次数。实验结果表明,该算法在挖掘约束频繁NCS时比现有挖掘算法更快速有效。  相似文献   

4.
在频繁邻近类别集挖掘中,由于用户指定约束条件的动态变化,现有挖掘算法因多次重复扫描空间事务而存在冗余计算,故提出一种频繁邻近类别集的动态约束挖掘算法,其能根据用户发出的动态约束指令,提取满足用户需求的频繁邻近类别集;该算法用数组索引映射邻近类别集,用正整数幂集法计算支持数和搜索满足用户动态约束的频繁邻近类别集;该算法无需产生候选频繁邻近类别集且不重复扫描缓冲分析得到的空间事务;为了验证算法的实用性和高效性,将其应用到移动环境中缩短移动系统的响应时间,尽最大努力来提高用户满意度,通过移动计算下的仿真实验表明该算法比现有算法更快速更有效。  相似文献   

5.
发现频繁项目集是多种数据挖掘应用中的的,最新的研究主要围绕减少事务数据库的扫描次数进而减少挖掘过程的I/O代价来提高效率.本文提出一种快速挖掘频繁项目集的算法FDFI(fast discoveryfrequentitemsets).该算法利用深度优先搜索的特点,结合频繁项目集的性质,有效地缩小了搜索空间,并采用独特的支持度计数策略,只需一次数据库扫描,就可计算所有项目集的支持度,大大减少了数据扫描量.最后作者对这一算法的性能进行了理论分析和实验验证.  相似文献   

6.
基于二进制的长频繁项目集挖掘算法   总被引:1,自引:1,他引:0  
结合挖掘长频繁项目集的自顶向下搜索策略,提出一种基于二进制的长频繁项目集挖掘算法.该算法用数值递减搜索策略产生候选项,在用到频繁项目集修剪其子集减少候选项的基础上还通过事务特征减少搜索事务数,并运用二进制的逻辑"与"运算计算支持数,提高了算法的效率.算法分析和实验表明,该算法是有效的、快速的.  相似文献   

7.
空间频繁并置模式(SPCP)是一组空间特征的子集,它们的实例在地理空间中频繁地出现在一起.基于内存物化实例邻近关系并搜索模式实例效率较高,但实例信息会被重复存储.图数据库技术能高效地对具有复杂关联关系的数据建模,但基于实例邻近关系图移植已有的挖掘方法不能发挥图遍历的优势.针对上述问题,探索了基于图数据库的空间频繁并置模...  相似文献   

8.
基于双空间搜索的频繁项挖掘方法   总被引:6,自引:1,他引:6  
1 引言 1998年Roberto J.和Bayardo Jr.利用自底向上搜索和项目集排序的方法建立了一种挖掘长型频繁项的Max-Miner算法;Lin D.和 Z.Kedem提出了一种双向钳形搜索Pincer-Search方法,利用自底向上搜索产生的非频繁项集来约束和修剪自顶向下方向的最大侯选频繁项集,候选频繁项集来自于Apriori方法。这两种方法虽然细节有所不同,但修剪最大频繁项的思想类似。假设{{1,2,3,4,5,6}}是最大候选频繁项MFCS(maximum-frequent-candidate-set),{1,6}和{3,6}是新发现的非频繁项集,对MFCS考虑{1,6}得{{1,2,3,4,5},{2,3,4,5,6}}。再用{3,6}更新这个MFCS:由于{3,6}是{2,  相似文献   

9.
余莉  甘淑  袁希平  李佳田 《计算机应用》2016,36(5):1267-1272
空间聚类是空间数据挖掘和知识发现领域的主要研究方向之一,但点目标空间分布密度的不均匀、分布形状的多样化,以及"多桥"链接问题的存在,使得基于距离和密度的聚类算法不能高效且有效地识别聚集性高的点目标。提出了基于空间邻近的点目标聚类方法,通过Voronoi建模识别点目标间的空间邻近关系,并以Voronoi势力范围来定义相似度准则,最终构建树结构以实现点目标的聚集模式识别。实验将所提算法与K-means、具有噪声的基于密度的聚类(DBSCAN)算法进行比较分析,结果表明算法能够发现密度不均且任意形状分布的点目标集群,同时准确划分"桥"链接的簇,适用于空间点目标异质分布下的聚集模式识别。  相似文献   

10.
结合自底向上与自顶向下的搜索策略,提出一种快速发现最大频繁项目集的算法.该算法利用非频繁项目集对候选最大频繁项目集进行剪枝和降维,减少了候选最大频繁项目集的数量,缩小了搜索空间,提高了算法的效率.算法分析和实验表明,该算法是一种有效、快速的算法.  相似文献   

11.
频繁项集挖掘算法   总被引:14,自引:1,他引:14  
数据挖掘在最近几年里已被数据库界所广泛研究,而搜索频繁项集是诸如关联规则挖掘,序列模式挖掘等数据挖掘问题中的关键步骤。本文描述了频繁项集挖掘问题的特点,并根据搜索策略对已有各种频繁项集挖掘算法进行了分析和比较。  相似文献   

12.
采用频繁项目链表变换的频繁项目集挖掘算法   总被引:1,自引:0,他引:1  
频繁项目集的产生是关联规则挖掘的关键问题,经典的关联规则挖掘算法是通过对事务数据库的多次扫描实现的.最新的研究已经开始探索合适的数据结构以支持进行极少次数的事务数据库的扫描,进而减少关联规则挖掘过程中巨大的I/O开销以获得更高的效率.文中利用频繁项目链表的数据结构,给出了一种仅需扫描两次事务数据库的关联规则挖掘算法 ,称为FILLT算法.该算法采取分而治之策略,对频繁项目链表实施分割、变换来进行关联规则挖掘.文中最后对这一算法的效率进行了理论分析和实验验证.  相似文献   

13.
基于频繁项集挖掘的贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是一种简单而且高效的分类学习算法,但是它所要求的属性独立性假设在真实世界应用中经常难以满足.为了放松属性独立性约束以提高朴素贝叶斯分类器的泛化能力,研究人员进行了大量的工作.提出了一种基于频繁项集挖掘技术的贝叶斯分类学习算法FISC(frequent item sets classifier).在训练阶段,FISC找到所有频繁项集并计算可能用到的概率估值.在测试阶段,FISC对于测试样本包含的每个项集构造一个分类器,通过集成这些分类器来给出预测结果.实验结果验证了FISC的有效性.  相似文献   

14.
Feature Subset Selection within a Simulated Annealing Data Mining Algorithm   总被引:2,自引:0,他引:2  
An overview of the principle feature subset selection methods isgiven. We investigate a number of measures of feature subset quality, usinglarge commercial databases. We develop an entropic measure, based upon theinformation gain approach used within ID3 and C4.5 to build trees, which isshown to give the best performance over our databases. This measure is usedwithin a simple feature subset selection algorithm and the technique is usedto generate subsets of high quality features from the databases. A simulatedannealing based data mining technique is presented and applied to thedatabases. The performance using all features is compared to that achievedusing the subset selected by our algorithm. We show that a substantialreduction in the number of features may be achieved together with animprovement in the performance of our data mining system. We also present amodification of the data mining algorithm, which allows it to simultaneouslysearch for promising feature subsets and high quality rules. The effect ofvarying the generality level of the desired pattern is alsoinvestigated.  相似文献   

15.
Given an m×n binary matrix A, a subset C of the columns is called t-frequent if there are at least t rows in A in which all entries belonging to C are non-zero. Let us denote by the number of maximal t-frequent sets of A, and let denote the number of those minimal column subsets of A which are not t-frequent (so called t-infrequent sets). We prove that the inequality (mt+1) holds for any binary matrix A in which not all column subsets are t-frequent. This inequality is sharp, and allows for an incremental quasi-polynomial algorithm for generating all minimal t-infrequent sets. We also prove that the analogous generation problem for maximal t-frequent sets is NP-hard. Finally, we discuss the complexity of generating closed frequent sets and some other related problems.  相似文献   

16.
数据挖掘的一个基本任务是在海量数据的数据库中开采频繁项目集。本文提出了一种方法,不用开采频繁项目集全集,而是开采它的一个称为频繁无规则集集合的精简集。我们能用频繁无规则集集合还原出完整的频繁项目集集合和它们的精确支持度而不用读取数据库。可以看到,对频繁无规则集集合的开采是高效的。我们给出了一个算法HOPE-Ⅲ来开采频繁无规则集集合,并将它和算法A-Close进行了比较。实验结果显示,HOPE-Ⅲ在任何情况下都比A-Close的性能更好。  相似文献   

17.
频繁模式挖掘算法FP-growth算法需递归地生成大量的条件FP-树,且耗费大量存储空间和时间。为此,采用矩阵技术统计约束子树中的频繁项集和频繁项集的支持度,以进行数据挖掘。实验结果表明,该频繁模式挖掘算法是有效的,具有较高的时间效率及空间 效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号