共查询到16条相似文献,搜索用时 308 毫秒
1.
2.
3.
4.
关联规则挖掘是数据挖掘中重要的研究课题,而其中一个重要问题是对挖掘出的规则的感兴趣程度的评估。分析并讨论了传统支持度-置信度框架、相关度和有效度等衡量标准的不足,并将T检验思想引入到关联规则的衡量中,提出了一种新的关联规则衡量标准-影响度。实验结果表明,在传统挖掘方法的基础上引入影响度,可以有效克服现有衡量标准的一些不足,减少冗余规则的产生。 相似文献
5.
用数据查询语言实现关联规则采掘 总被引:3,自引:1,他引:2
关联规则采掘具有广阔的应用前景。文章讨论了关联规则的用途、内涵,分析了关联规则采掘的算法,给出了在DBMS平台上用数据查询语言实现关联规则采掘的程序。测试表明,实现的算法对关联规则采掘十分有效。 相似文献
6.
用数据查询语言实现关联规则脂掘 总被引:1,自引:0,他引:1
关联规则采掘具有广阔的应用前景。文章讨论了关联规则的用途,内涵,分析了关联规则采掘的算法,给出了在DBMS平台上用数据查询语言实现关联规则采掘的程序。测试表明,实现的算法对关联规则采掘十分有效。 相似文献
7.
兴趣度--关联规则的又一个阈值 总被引:54,自引:3,他引:51
关联规则的采掘是数据采掘研究的一个重要方面,分析现有的关联规则采掘算法中所存在的问题:首先是关联规则在其表达形式上没有考虑各种可能的反面示例的影响,因而导致知识表达功能的不够完善;其次是有可能一条规则即使可信度和支持度都很高,仍没有实际意义,甚至是误导性的,因此对关联规则的形式定义作了修改,将运用差异思想引兴起度阈值运用到关联规则中来,并给出其形式定义,在分析了兴趣度的实际意义以后,讨论了举度与概 相似文献
8.
传统的关联规则有趣性大多是基于支持度和置信度的衡量标准。本文首先对经典的支持度-置信度框架存在的不足进行了分析,然后对现有的衡量标准进行了综述,并阐述了各自的优缺点,最后指出了关联规则衡量标准的研究方向。 相似文献
9.
10.
本文指出关联规则的表达方式及其衡量标准的不足,分析产生的根本原因,并修改了关联规则的形式化定义,提出一个新的衡量标准——信任度(trust)。 相似文献
11.
12.
13.
14.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低。矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显。该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需要的事务和项,通过矩阵相乘和查找表获得频繁的二项式集合,结合排序索引得到剩下的频繁k-项集。与矩阵关联规则算法和Apriori算法进行比较,提出的算法可以直接查找频繁项集并对数据库进行扫描,当产生频繁项集比较多或者数据库需要进行动态更新时,该算法具有较好的可行性和执行效率。实验表明,提出的矩阵排序索引算法很好地降低了内存的使用率和I/O的开销,提高了数据挖掘的效率且具有较好的可扩展性。 相似文献
15.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。 相似文献
16.
关联规则是数据挖掘中的概念,通过分析数据找到数据之间的关联.海量数据会产生大量冗余和相似的关联规则,影响用户对规则的理解和判断.本文采用鸢尾花数据集进行实验.建立三个检验指标,删除冗余关联规则;在进行K-means分析时利用规则产生的三角形迭代选择初始点,再将删除冗余后的规则进行聚类.实验证实本文方法将相似的关联规则归为一簇,能有效的帮助用户迅速找到有用的关联规则,有助于用户更好的对规则进行理解和分析,提高了聚类的效率. 相似文献