首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多最小项目支持度模型应用于关联分类,以有效挖掘稀有项。该算法为数据库中的规则项提供了用户可定义的最小项目支持度。MS-CBAR算法使用项的最小项支持度阈值、类的最小类支持度值和规则项的最小支持度值决定分类规则是否频繁。生成分类规则集后,使用最高优先度规则覆盖法基于规则集建立分类器。实验表明,所提算法在包含稀有项目及稀有类的数据集中准确率高于传统关联分类算法及其相关算法,表现更稳定。  相似文献   

2.
在多支持度关联规则挖掘算法中,针对最小支持度的选取问题,提出一种基于分段函数的多支持度关联规则挖掘算法.在多支持度算法中挖掘频繁集的时候,最小支持度由项集最小项支持度的最小值、最大值和给定的参考值所决定,这样避免了采用最小值作为最小支持度算法的时间复杂度高和存在无效规则的问题,以及采用最大值致使剪枝程度过大而造成规则遗漏的问题.通过实验结果表明了该算法的有效性.  相似文献   

3.
分组多支持度关联规则研究   总被引:4,自引:1,他引:3  
关联规则是数据挖掘的重要任务之一,传统关联规则算法只有一个最小支持度,假设项出现的频率大致相同,而在谮实际中并非如此,由此产生了多支持度关联规则问题.该问题针对每个项给定不同的支持度,而在实际应用中项可以划分成若干个组,每组有一个支持度.由此提出了分组多支持度关联规则问题,针对该问题给出了基于多支持度性质对项进行分组的方法.该方法可以降低2-项候选集的数目.在此基础上,进一步给出了相应的多支持度关联规则发现算法,并通过实验证明了算法的有效性.  相似文献   

4.
一种基于概率的加权关联规则挖掘算法   总被引:11,自引:0,他引:11  
针对关联规则数据挖掘在实际应用中出现的问题:不能挖掘小概率事件中的关联规则, 提出了基于概率分布的加权关联规则挖掘算法。该算法同时改进了加权支持度计算方法,保持 Apriori算法的频繁集向下封闭的特性,并在实践中得到了有效的应用。  相似文献   

5.
多重最小支持度频繁项集挖掘算法研究   总被引:1,自引:0,他引:1  
张慧哲  王坚 《计算机应用》2007,27(9):2290-2293
某些情况下提取关联规则挖掘时需要根据项目的特点设置不同的最小支持度,针对此问题进行了多重最小支持度的频繁项集挖掘算法研究。在FP-growth的基础上提出了多重最小支持度树(MS-tree)的新方法,并设计了MS-growth算法对MS-tree进行频繁模式集的挖掘。该算法只需扫描一次数据库,克服了MSapriori算法在生成关联规则时需要重新扫描数据库的缺点。实验表明,新算法的性能可以和FP-growth算法相比,而且可以处理多重最小支持度的问题。  相似文献   

6.
针对数据集中交易记录和数据项的重要性不同问题,提出了一种多最小支持度的加权关联规则挖掘算法,允许用户设定多个最小支持度,给出交易记录不同的权重,从而发现有价值的关联规则。该算法按项目的最小支持度升序对交易记录进行分类,按类别依次求出每一类别内的加权频繁集。在挖掘过程中由于剔除了冗余项目并对相同项集累加计数,且不需多次重复扫描数据库,从而提高了挖掘效率。实验结果表明,新算法能有效地从数据集中挖掘出加权关联规则。  相似文献   

7.
最大值控制的多最小支持度关联规则挖掘算法   总被引:2,自引:0,他引:2  
何朝阳  赵剑锋  江水 《计算机工程》2006,32(11):103-105
大部分关联规则挖掘算法使用同一最小支持度阈值进行挖掘,但在实际使用中由干各项目发生频率的不同,理应有不同的最小支持度支持。该文提出了一种多最小支持度关联规则挖掘算法,为每一项目设置一最小支持度,同时在生成舒选集和最大频繁集的过程中使用最大值控制来实现剪枝,有效地提高了该算法的效率,最后用一个超市销售物品的例子来说明该算法的使用。  相似文献   

8.
增量更新关联规则挖掘主要解决事务数据库中交易记录不断更新和最小支持度发生变化时关联规则的维护问题。针对目前诸多增量更新关联规则挖掘算法存在效率低、计算成本高、规则难以维护等问题,提出一种基于倒排索引树的增量更新关联挖掘算法。该算法有效地将倒排索引技术与树型结构相结合,使得交易数据库中的数据不断更新和最小支持度随应用环境不同而不断改变时,以实现无需扫描原始交易数据库和不产生候选项集的情况下生成频繁项集。实验结果表明,该算法只需占用较小的存储空间、且检索项集的效率较高,能高效地解决增量更新关联规则难以维护的问题。  相似文献   

9.
在数据库中增加数据且调整最小支持度时,数据库中关联规则会发生变化,为从数据量和最小支持度同时发生变化的数据库中快速获取频繁项集,发现变化后的关联规则,通过对FIM和AIUA算法进行分析,提出一种结合两种算法优点的增量数据关联规则挖掘My_FIM_AIUA算法,该算法能减少数据库扫描次数,减少候选项集数量。通过实验表明My_FIM_AIUA算法能在数据量和最小支持度同时变化时快速找到频繁项集,提高挖掘增量数据关联规则的速度。  相似文献   

10.
在研究负关联规则相关特性的基础上,将向量内积引入到该领域,提出了一种基于向量内积的多最小支持度正负关联规则挖掘算法。考虑到事务数据库中各项集分布不均而导致的单一最小支持度难以设定的问题,采用了多最小支持度策略,设计了一种能同时挖掘出频繁与非频繁项集,以及从这些项集中挖掘出正负关联规则的算法。实验结果表明,该算法仅需扫描一次数据库,且具有动态剪枝,不保留中间候选项和节省大量内存等优点,对事务数据库中负关联规则的挖掘具有重要意义。  相似文献   

11.
程雁  闪四清 《计算机工程》2005,31(17):98-99
针对数据库中删除数据时如何有效地更新关联规则的问题,提出了UARAD算法。该算法可以有效利用知识数据库中保留的最小非高频项目集来产生新的候选项目集,避免了候选项目集的数量太庞大的问题。  相似文献   

12.
关联规则挖掘是数据挖掘领域中最活跃的一个分支。目前提出的许多关联规则挖掘算法需要多次扫描数据库并产生大量候选项集,影响了挖掘效率。针对加权关联规则挖掘算法中多次扫描数据库影响算法性能的问题,对其进行了优化,采取了以空间换时间的思路,提出一种基于向量的概率加权关联规则挖掘算法。以求概率的方式设置项目属性的权值,通过矩阵向量存储结构保存事务记录,只需扫描一次数据库,并且采用不同的剪枝策略及加权支持度和置信度的计算方式。使用数据实例进行模拟实验,结果表明此算法明显提高了挖掘效率。  相似文献   

13.
挖掘频繁项集是关联规则算法中的关键问题,提高频繁项集的产生效率是近几年关联规则挖掘领域研究热点之一.该文针对Apriori算法的不足,提出了一种0-1矩阵的改进算法.此改进算法大大减少了访问数据库的次数,提高了系统的运行效率,同时还减少了大量的候选集的产生,节约了存储空间.  相似文献   

14.
一种基于事务修剪的约束关联规则的挖掘算法   总被引:2,自引:0,他引:2  
陈义明  贺勇 《计算机应用》2005,25(11):2627-2629
针对一类常见而简单的规则中有项或缺项的约束,提出了一种基于事务数据修剪的约束关联规则的快速挖掘算法。该算法先扫描一遍数据库对事务进行水平和纵向的修剪,接着在修剪后的数据集上挖掘频繁项集,形成规则的候选头集、体集和规则项集,最后一次扫描后由最小可信度约束得到所要求的关联规则。实验表明,与按简洁约束采取的一般策略相比,该算法的性能有较明显的提高。  相似文献   

15.
胡鹏  童恒建  徐来 《微计算机信息》2006,22(15):175-177
数据挖掘的目的是为了发现有效的关联规则从而找到不易发现的规律从而对企业的决策提供帮助,而查找频繁项集是发现有效关联规则的基础,其基础算法是Apriori算法。分布式数据库是目前较为流行的一种的数据库开发模式,它通过将一套完整的数据库系统分别部署在几台电脑上可以实现几台电脑并行处理数据从而提高数据库的效率。本文通过分析一个查找频繁项集的例子提出了一种将改进的频繁项集查找算法与分布式数据库相结合的方法从而实现频繁项集的高效查找。  相似文献   

16.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低.矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显.该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需...  相似文献   

17.
针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产生的项集,解决RDD内存资源和计算速度受限问题。基于先验定理对事务、项目和项集进行精简,同时提出用Sql语句对项集中项目对应事务集合求交集的方式计算项集支持度,提高计算支持度的效率。提出了两种迭代算法和自适应数据的选择条件,增强该算法对各种数据集的泛化性。进行多组实验,证明提出的算法总是自适应本次迭代数据的特点选择最优的迭代方法,同时具有较高并行算法性能,可以扩展到更大规模集群和数据;同基于Spark框架的关联规则算法YAFIM和R-Apriori进行对比,在每次迭代和总体运行计算效率上有更好的表现。  相似文献   

18.
黄勇  赵靖 《微机发展》2011,(2):147-150
分布式系统下关联规则挖掘算法的挖掘效率取决于频繁项目集的确定和网络各站点间的通讯量。为提高频繁项目集的生成效率,提出了关系数据库下一种新的数据预处理方法以及一种基于数组形式的频繁项目集生成算法。新的数据预处理方法可以降低候选项目集的数量,基于二进制的数组只需进行逻辑与运算便可生成频繁项目集,将该算法结合星型网络结构下的分布式挖掘算法SDMA应用于实验挖掘,理论分析与实验结果表明,算法提高了挖掘效率,是可行的。  相似文献   

19.
在所有的关联规则的挖掘算法中Apriori算法是最为经典的一个,但Apriofi算法有两个缺陷,即要扫描多次数据库以及生成大量的候选集。本文提出一种利用对项进行编码的方法对该算法进行改进,通过对项编码来减少扫描数据库次数并通过删除项来减少生成候选集的数量,从而提高算法的效率。相同条件下的实验结果表明,该优化后的算法能有效地提高关联规则挖掘的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号