首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 140 毫秒
刘发升  杨惠 《计算机应用》2003,23(10):117-118,123
约简问题是粗糙集的基本问题,但求最小约简的问题属于NP-难的问题,因此,常常利用启发式方法求解约简。根据Occam原理与规则支持度,提出了一种启发式精简规则挖掘算法HDMR,并最终给出了该算法的SQL实现方法。实验结果表明,该算法是可行的和有效的。  相似文献   

一种新的多值属性关联规则挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为解决多值属性的关联规则挖掘问题给出相似属性集合矩阵的概念,提出一种新的多值关联规则挖掘算法——Qarmasm算法。该算法无须扩展事务属性,约简效率高,能够直接生成候选频繁项集,求出其支持度,有效地发现频繁项。给出算法的描述及其复杂性分析。与经典算法的对比表明,该算法具有明显的优势。  相似文献   

关联规则挖掘是经典的数据挖掘方法,越来越多的企业都把它看作是必不可少的战略分析工具。当前关联规则挖掘方法得到的规则过多,令用户在运用时难以理解,因此研究关联规则集的约简方法具有应用价值。研究了数据库模式中关键字包含的主属性对基于Apriori算法的关联规则挖掘产生的关联规则的影响,即部分函数依赖会导致关联规则挖掘的数据集中冗余信息的频繁出现,并产生没有实际价值的关联规则,识别并消除这样的规则就能实现规则集的约简。求全部主属性如同求所有候选关键字问题都是NP难题,因此提出了一种基于一个候选关键字进行验证的算法来判定主属性,从而完成基于主属性判定的关联规则挖掘约简算法的设计与实现,并在最后的实验中验证了该算法的有效性。   相似文献   

一种基于分辨矩阵的新的属性约简算法   总被引:1,自引:0,他引:1  
属性约简是粗糙集理论中的重要研究内容之一,但属性约简是一个NP难题,需要通过启发式知识实现.文中提出利用分辨矩阵求不同的条件属性组合相对于决策属性的正域的方法,并给出新的求核属性的方法.在此基础上,提出了一种利用分辨矩阵实现属性约简的新算法,该算法能快速求最少属性且实现简单,并实现了属性约简与规则提取的同步,最后通过实例证明了其正确性.  相似文献   

陈丽雯陈燕  任宏旺 《微机发展》2003,13(12):125-126,F003
针对目前道路交通肇事逃逸案件逐年增多情况,利用改进后的粗糙集属性约简算法对案件记录卷宗中的大量数据进行约简处理,得到和原始数据等效的属性约简集,将此约简集作为挖掘的数据基础,大大缩小了数据量,使得侦破人员可以将注意力集中于重要的物证采集上,减少了案件侦破中不必要的人、财、物消耗,同时数据量的减小也相应的加快了挖掘的速度。将在此约简集基础上挖掘得到的规则和关联规则算法得出的规则进行比较,证明改进后的约简算法是有效的。  相似文献   

知识的约简研究   总被引:9,自引:1,他引:8  
本文首先给出了知识约简问题的形式定义,然后详细描述了知识库中面向范畴的约简,面向属性的约简和面向规则的约简方法,分别提出了面向属性的约简算法和面向规则的约简算法,最后进行了一些讨论。  相似文献   

产品演进设计中,产品数据复杂繁多、设计规则难以提取是困扰设计人员的两个关键问题.提出基于粗糙集理论的属性约简算法,较好地解决了产品数据约简问题;利用分类一致性算法,较好地解决了产品设计知识挖掘和设计规则提取问题.通过实证分析,证明了算法的有效性和高效性.  相似文献   

个性化决策规则的发现: 一种基于Rough Set 的方法   总被引:8,自引:2,他引:8       下载免费PDF全文
为发现用户真正感兴趣的决策规则,利用RS理论和方法设计了个性化决策规则发掘算法.算法分为两步:首先在属性约简中通过提出的理论尽可能去除用户不感兴趣的属性的方法来找出最佳约简;然后在属性值约简中进一步去除与用户无关的属性,从而抽取个性化决策规则.从理论上论证了算法的有效性,给出了实验分析,证实了算法的可行性.  相似文献   

属性约简是粗糙集理论中的重要研究内容之一.但属性约简是一个NP难题,需要通过启发式知识实四。文中提出利用分辨矩阵求不同的条件属性组合相对于决策属性的正域的方法,并给出新的求核属性的方法。在此基础上,提出了一种利用分辨矩阵实现属性约简的新算法,该算法能快速求最少属性且实现简单,并实现了属性约简与规则提取的同步.最后通过实例证明了其正确性。  相似文献   

李文翔  夏德麟 《计算机工程与设计》2005,26(12):3389-3391,3412
在数据挖掘系统的研究设计中,知识的获取和表示是一个备受关注的问题。提出的知识约简方法——差异相似矩阵算法,根据信息系统中各个样本的属性取值的差异性和相似性,构建矩阵模型,求取各决策类的最佳约简属性集,得出用于指导分类的规则知识。基于该算法开发的知识约简系统,能够有效地应用于大规模数据集的分析处理中。  相似文献   

加权关联规则的改进算法   总被引:7,自引:2,他引:7  
论文讨论了加权关联规则问题,针对布尔类型的加权关联规则问题提出一种改进算法。该算法首先利用普通的关联规则算法产生频繁集,然后在该频繁集的基础上产生加权频繁集。同时,给出了最优的最小支持度设定方法,保证了普通关联规则算法所产生的频繁集为加权频繁集的超集。该算法有较高的效率,并且能够有效利用已有的关联规则算法。  相似文献   

超越支持度-置信度框架的负相关对规则挖掘   总被引:2,自引:0,他引:2  
相关规则比传统的关联规则更具有实际意义.但现存的相关规则挖掘算法均需利用apriori类似算法挖掘具有高支持度的项集,再对获得的项集进行相关性测试而获取相关规则,这导致低支持度-高相关度的规则不易被发现.直接挖掘相关规则的困难在于候选相关项不能利用apriori类似性质进行剪枝,导致搜索空间爆炸性增长.本文提出的算法MNI利用Phi相关系数的下界来产生候选负相关项,从而缩小负相关项搜索空间,并证明了该算法的完全性和正确性.在负相关项对基础上利用规则可靠度产生负相关规则时,提出将负相关对计数统一转化为正相关对计数的方法.在真实数据集上的实验结果表明,该算法MNI能有效提高负相关项对的挖掘速度.  相似文献   

CAPP环境下关联规则挖掘技术的应用研究   总被引:2,自引:0,他引:2  
CAPP系统的数据库中存储了大量的工艺设计资料,如何充分利用这些宝贵的数据和信息是一项非常有意义的研究工作。通过对数据挖掘技术的深入分析,提出了将数据挖掘技术应用于CAPP数据库中,采用关联规则挖掘方法发现基本工艺单元。详细讨论了关联规则的定义和挖掘算法,并给出了具体的挖掘实例,以期为提高CAPP系统的应用效率提供有力的技术支持。  相似文献   

针对动态安全模型理论P2DR,本文在入侵检测技术中应用了关联规则数据挖掘算法,并适当改进了Apriori算法。该算法对关联规则进行强有力的压缩,减少了结果集中规则的数目。实验结果表明,改进的算法能够有效压缩关联规则数目,提高算法效率,适用于网络数据挖掘,并能有效地减少入侵检测技术中的误报率和漏报率。  相似文献   

针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产生的项集,解决RDD内存资源和计算速度受限问题。基于先验定理对事务、项目和项集进行精简,同时提出用Sql语句对项集中项目对应事务集合求交集的方式计算项集支持度,提高计算支持度的效率。提出了两种迭代算法和自适应数据的选择条件,增强该算法对各种数据集的泛化性。进行多组实验,证明提出的算法总是自适应本次迭代数据的特点选择最优的迭代方法,同时具有较高并行算法性能,可以扩展到更大规模集群和数据;同基于Spark框架的关联规则算法YAFIM和R-Apriori进行对比,在每次迭代和总体运行计算效率上有更好的表现。  相似文献   

高置信度关联规则的挖掘   总被引:3,自引:1,他引:2       下载免费PDF全文
传统的关联规则和基于效用的关联规则,会忽略一些支持度或效用值不高、置信度(又称可信度)却非常高的规则,这些置信度很高的规则能帮助人们满足规避风险、提高成功率的期望。为挖掘这些低支持度(或效用值)、高置信度的规则,提出了HCARM算法。HCARM采用了划分的方法来处理大数据集,利用新的剪枝策略压缩搜索空间。同时,通过设定长度阈值minlen,使HCARM适合长模式挖掘。实验结果表明,该方法对高置信度长模式有效。  相似文献   

目前数据库关联规则的增量挖掘作为数据挖掘的一个重要的领域, 已经广泛应用于教育, 医疗, 卫生等领域, 因此它成为了当今数据挖掘中最活跃, 最重要的一个分支领域. 数据库中的数据存在大量未知的数据以及不可知的数据变化. 若采用Apriori算法进行计算, 一方面很难取得较好的结果, 另一方面支持度的变化对结果的影响很大, 无法确定支持度的变化, 因此借助属性论中定性属性的机理以及属性计算网络的边界学习算法, 结合IUBM算法提出了一种基于定性属性的关联规则的增量挖掘算法. 比如在以分数划线招生制度下, 定性基准的一分之差, 可能完全改变一个学生的一生的命运. 通过实验表明, 该算法在处理大规模数据的增量式关联规则的挖掘中减少了冗余规则的产生, 同时挖掘效率得到了很大的提升. 对于诸如预测大学生就业的情况及招聘企业对于应届生学习情况的了解等应用十分有意义.  相似文献   

In this paper, a new mining capability, called mining of substitution rules, is explored. A substitution refers to the choice made by a customer to replace the purchase of some items with that of others. The mining of substitution rules in a transaction database, the same as that of association rules, will lead to very valuable knowledge in various aspects, including market prediction, user behaviour analysis and decision support. The process of mining substitution rules can be decomposed into two procedures. The first procedure is to identify concrete itemsets among a large number of frequent itemsets, where a concrete itemset is a frequent itemset whose items are statistically dependent. The second procedure is then on the substitution rule generation. In this paper, we first derive theoretical properties for the model of substitution rule mining and devise a technique on the induction of positive itemset supports to improve the efficiency of support counting for negative itemsets. Then, in light of these properties, the SRM (substitution rule mining) algorithm is designed and implemented to discover the substitution rules efficiently while attaining good statistical significance. Empirical studies are performed to evaluate the performance of the SRM algorithm proposed. It is shown that the SRM algorithm not only has very good execution efficiency but also produces substitution rules of very high quality.  相似文献   

Efficient Adaptive-Support Association Rule Mining for Recommender Systems   总被引:25,自引:0,他引:25  
Collaborative recommender systems allow personalization for e-commerce by exploiting similarities and dissimilarities among customers' preferences. We investigate the use of association rule mining as an underlying technology for collaborative recommender systems. Association rules have been used with success in other domains. However, most currently existing association rule mining algorithms were designed with market basket analysis in mind. Such algorithms are inefficient for collaborative recommendation because they mine many rules that are not relevant to a given user. Also, it is necessary to specify the minimum support of the mined rules in advance, often leading to either too many or too few rules; this negatively impacts the performance of the overall system. We describe a collaborative recommendation technique based on a new algorithm specifically designed to mine association rules for this purpose. Our algorithm does not require the minimum support to be specified in advance. Rather, a target range is given for the number of rules, and the algorithm adjusts the minimum support for each user in order to obtain a ruleset whose size is in the desired range. Rules are mined for a specific target user, reducing the time required for the mining process. We employ associations between users as well as associations between items in making recommendations. Experimental evaluation of a system based on our algorithm reveals performance that is significantly better than that of traditional correlation-based approaches.  相似文献   

Sequential rule mining is an important data mining task used in a wide range of applications. However, current algorithms for discovering sequential rules common to several sequences use very restrictive definitions of sequential rules, which make them unable to recognize that similar rules can describe a same phenomenon. This can have many undesirable effects such as (1) similar rules that are rated differently, (2) rules that are not found because they are considered uninteresting when taken individually, (3) and rules that are too specific, which makes them less likely to be used for making predictions. In this paper, we address these problems by proposing a more general form of sequential rules such that items in the antecedent and in the consequent of each rule are unordered. We propose an algorithm named CMRules for mining this form of rules. The algorithm proceeds by first finding association rules to prune the search space for items that occur jointly in many sequences. Then it eliminates association rules that do not meet the minimum confidence and support thresholds according to the sequential ordering. We evaluate the performance of CMRules in three different ways. First, we provide an analysis of its time complexity. Second, we compare its performance (in terms of execution time, memory usage and scalability) with an adaptation of an algorithm from the literature that we name CMDeo. For this comparison, we use three real-life public datasets, which have different characteristics and represent three kinds of data. In many cases, results show that CMRules is faster and has a better scalability for low support thresholds than CMDeo. Lastly, we report a successful application of the algorithm in a tutoring agent.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号