首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
多数据库中全局负关联规则挖掘研究   总被引:1,自引:0,他引:1  
全局负关联规则挖掘是多数据库关联信息挖掘的重要研究内容,具有广泛的应用范围和使用价值.合并各子数据库的负关联规则是现有全局负关联规则挖掘常用的方法,但数据密度大、规则不全面及运算时间高等问题影响了已有全局负关联规则挖掘方法的效率.本文给出一种新的全局负关联规则挖掘算法,其具体步骤为:(1)扫描各子数据库,建立多数据库频繁模式树;(2)依据频繁项集全局一致性原则,对多数据库频繁模式树执行精简操作;(3)在此基础上产生全局极小非频繁项集;(4)依据极大频繁项集向上闭包原则,产生全局非频繁项集;(5)在规则相关度的基础上提取全局负关联规则.大量的对比实验结果表明,本文算法具有快速发现全局负关联规则的能力.  相似文献   

2.
关联规则前件或后件中部分项集为负的负关联规则更有意义,要挖掘这样的负关联规则首先要获取负频繁项集。为快速获取负频繁项集,本文提出将正频繁项集中若干项改为负项,若满足最小支持度计数则为负频繁项集。在正负频繁项集中生成关联规则时,会产生矛盾的关联规则,对于矛盾规则,提出使用二次概率相关性判断方法来正确选择具有矛盾的关联规则。经过实验,验证该算法是有效和正确的。  相似文献   

3.
黄名选  钟智  张师超 《计算机工程与设计》2012,33(5):1863-1866,1880
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能.  相似文献   

4.
传统关联规则挖掘是在整个事务数据库的时间范围内进行的,但有时用户想得到某一特定时间范围(如商品的促销阶段)内的关联规则,该文对这一问题进行了详细讨论,提出了基于定制时间的时态支持度、时态频繁项集、时态置信度、时态关联规则等概念,在传统Apriori算法的基础上提出了挖掘时态频繁项集的算法。另一方面,讨论了当同时考虑正、负关联规则出现的矛盾规则问题以及用相关性解决这一问题的方法,提出了挖掘正负时态关联规则的算法,实例说明了算法的执行过程及有效性。  相似文献   

5.
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。  相似文献   

6.
针对目前时态关联规则研究中存在的挖掘效率不高、规则可解释性低、未考虑项集时间关联关系等问题,在原有相关研究的基础上,提出一种新的基于频繁项集树的时态关联规则挖掘算法.通过对时间序列数据进行降维离散化处理,采用向量运算生成频繁项集,提高频繁项集挖掘效率.考虑到项集之间的时态关系以及树结构的优势,提出一种新的频繁项集树结构挖掘时态关联规则,其挖掘频繁项集与树结构构建同时进行,无需产生候选项集,提高了规则挖掘效率.实验表明,对比于其他算法,所提出算法在挖掘效率和规则解释性方面效果更好,具有较好的应用前景.  相似文献   

7.
数据库中关联规则信息是知识的表述形式之一,负关联规则挖掘是数据库关联信息挖掘的重要研究内容,具有广泛的应用范围。现有的挖掘方法不能获取数据库中全部的负关联规则,考虑从数据库中提取全部的负关联规则,通过(1)扫描数据库建立数据库频繁模式树DFP-tree(Database Frequent Pattern tree);(2)在精简DFP-tree的基础上获取全部极小非频繁项集ASI;(3)对ASI中极大频繁项集的向上闭包,得到全部非频繁项集;(4)在此基础上采用相关度作为规则兴趣度量之一提取负关联规则。理论和实验表明算法的正确性和效率。  相似文献   

8.
吴爱华  陈出新 《计算机仿真》2021,38(9):344-347,352
针对传统分布式数据库中关系数据正负关联规则挖掘的准确度较低、挖掘效率较低等问题,提出一种新的分布式数据库中关系数据正负关联规则挖掘方法.在关联规则基本概念和性质分析基础上,利用多级支持度从频繁项集中生成正关联规则,结合根据频繁项集和非频繁项集生成负关联规则,通过最小支持度合理设置相关置信度,引入不同权重值于各数据库中,实现分布式数据库中关系数据正负关联规则的挖掘.仿真结果表明,以上算法可有效识别结果规则集中的负关联规则和弱关联规则,确保数据库中关联数据挖掘更加准确;在不同最小支持度或不同事务数条件下,挖掘速度较快,提升了挖掘效率.  相似文献   

9.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

10.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。  相似文献   

11.
查询扩展是改善和提高信息检索性能的核心技术之一,其关键问题是如何获取与原查询相关的扩展词。通过关联规则挖掘技术获取扩展词是一种有效的扩展词来源方法。为了获取高质量的扩展词,提出了一种面向查询扩展的基于文本数据库的词间正负关联规则挖掘算法。该算法采用支持度-置信度-相关度框架衡量关联规则,避免产生自相矛盾的正、负关联规则,并结合查询项,给出新的剪枝策略,挖掘出只含有查询词项的正负规则,提高了挖掘效率。实验结果表明,与传统的挖掘算法比较,提出的算法更有效、合理,能检测和删除相互矛盾的规则。  相似文献   

12.
负关联规则增量更新算法   总被引:1,自引:1,他引:0       下载免费PDF全文
讨论负关联规则的更新问题。与正关联规则增量更新不同,负关联规则不仅存在于频繁项集中,更多存在于非频繁项集中。针对该问题提出一种负关联规则增量更新算法NIUA,利用改进的Apriori算法以及集合的性质挖掘出频繁、非频繁项集和负关联规则。实验结果表明,该算法是可取的。  相似文献   

13.
在研究负关联规则相关特性的基础上,将向量内积引入到该领域,提出了一种基于向量内积的多最小支持度正负关联规则挖掘算法。考虑到事务数据库中各项集分布不均而导致的单一最小支持度难以设定的问题,采用了多最小支持度策略,设计了一种能同时挖掘出频繁与非频繁项集,以及从这些项集中挖掘出正负关联规则的算法。实验结果表明,该算法仅需扫描一次数据库,且具有动态剪枝,不保留中间候选项和节省大量内存等优点,对事务数据库中负关联规则的挖掘具有重要意义。  相似文献   

14.
Association rule mining is an important data analysis method for the discovery of associations within data. There have been many studies focused on finding fuzzy association rules from transaction databases. Unfortunately, in the real world, one may have available relatively infrequent data, as well as frequent data. From infrequent data, we can find a set of rare itemsets that will be useful for teachers to find out which students need extra help in learning. While the previous association rules discovery techniques are able to discover some rules based on frequency, this is insufficient to determine the importance of a rule composed of frequency-based data items. To remedy this problem, we develop a new algorithm based on the Apriori approach to mine fuzzy specific rare itemsets from quantitative data. Finally, fuzzy association rules can be generated from these fuzzy specific rare itemsets. The patterns are useful to discover learning problems. Experimental results show that the proposed approach is able to discover interesting and valuable patterns from the survey data.  相似文献   

15.
基于向量内积的非频繁项挖掘算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对负关联规则中非频繁项集的生成问题,将向量内积引入到该领域.通过对事务数据库的布尔化表示及对数据存储结构的合理分配,提出了一种新的非频繁项集快速生成算法.该算法首先将布尔化所得矩阵中的向量进行内积运算,通过逐层递增的思想,用两级支持度模型来约束非频繁项集与频繁项集的产生,使非频繁项集不仅可由频繁项集之间连接产生,而且...  相似文献   

16.
在由频繁项集产生关联规则时,利用提升度判断规则前、后件之间的正相关性可以避免产生一些无意义的关联。但是,这并不能保证规则前、后件中的项是正相关的,也不能减少挖掘频繁项集的时间开销。当规则的前件或后件存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,基于数学期望,提出了正相关的频繁项集的概念,并改进了一种直接在FP-树中挖掘频繁项集的算法,挖掘出正相关的频繁项集,从而有效地解决以上问题。实验表明,该算法可以大幅度地减少所产生的频繁项集数量,显著地降低了挖掘频繁项集的时间开销。对于大型数据集,尤其是稠密型数据集,该算法具有良好的性能。  相似文献   

17.
《Information Systems》2003,28(7):691-707
This paper proposes a new strategy for maintaining association rules in dynamic databases. This method uses weighting technique to highlight new data. Our approach is novel in that recently added transactions are given higher weights. In particular, we look at how frequent itemsets can be maintained incrementally. We propose a competitive model to ‘promote’ infrequent itemsets to frequent itemsets, and to ‘degrade’ frequent itemsets to infrequent itemsets incrementally. This competitive strategy can avoid retracing the whole data set. We have evaluated the proposed method. The experiments have shown that our approach is efficient and promising.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号