首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
关联规则的冗余删除与聚类   总被引:9,自引:0,他引:9  
关联规则挖掘常常会产生大量的规则,这使得用户分析和利用这些规则变得十分困难,尤其是数据库中属性高度相关时,问题更为突出.为了帮助用户做探索式分析,可以采用各种技术来有效地减少规则数量,如约束性关联规则挖掘、对规则进行聚类或泛化等技术.本文提出一种关联规则冗余删除算法ADRR和一种关联规则聚类算法ACAR.根据集合具有的性质,证明在挖掘到的关联规则中存在大量可以删除的冗余规则,从而提出了算法ADRR;算法ACAR采用一种新的用项目间的相关性来定义规则间距离的方法,结合DBSCAN算法的思想对关联规则进行聚类.最后将本文提出的算法加以实现,实验结果表明该算法暑有数可行的.且具较高的效率。  相似文献   

2.
由于现代网络数据量的急速增长,利用现有的算法生成关联规则时,冗余规则的数量远远大于实际有价值的规则,冗余规则不仅影响用户分析,而且使关联规则的利用率也大大降低。针对关联规则的冗余问题,提出了一种基于一阶谓词公式去除商务数据冗余关联规则的方法,利用一阶谓词公式来表示关联规则,通过等价公式进行转换,并利用算法和矩阵等价将谓词公式转换为邻接矩阵,然后利用冗余规则算法进行删除。实验原始数据为UCI数据集,并利用Weka生成关联规则。最后利用Matlab和Java实现冗余规则的去除。  相似文献   

3.
针对协同过滤算法推荐结果存在受噪音数据影响严重的问题,提出了一种基于用户项目间的关联规则集的协同过滤算法.利用经典的Apriori算法进行频繁项集合关联规则集的挖掘,利用挖掘的关联规则集进行用户间的相似度计算,相比于pearson相似等方法,基于关联规则集相似可以提高改进算法对噪音数据的抵抗力,最后进行最近邻居集计算并产生更适合用户的推荐结果.改进算法和传统算法在MovieLens数据集上的实验表明,基于Apriori算法的协同过滤算法较传统算法进一步提高了推荐准度和覆盖率.  相似文献   

4.
R-means:以关联规则为簇中心的文本聚类   总被引:2,自引:0,他引:2  
本文将k-means与关联规则(或频繁项目集)相结合,提出了一种新的文本聚类算法R-means.R-means算法以关联规则作为簇中心,通过类似于k-meams的迭代优化得到最终的簇.因此R-means不仅继承了k-means的简单性,而且用关联规则产生的簇描述易于为人们所理解.在几个实际数据集上的实验表明该算法可以得到高精度和高性能.  相似文献   

5.
AntClust是一种新的基于蚂蚁化学识别系统的聚类算法.但它在初始化参数、行为规则等方面存在不足.通过定义新的聚类中心、相似度计算方法、小巢删除规则以及修改行为规则,对其进行改进.实验结果表明,改进算法能有效的提高聚类质量.  相似文献   

6.
为了提高客服终端数据可利用性,降低冗余数据干扰程度,挖掘潜在客户,制定销售策略,研究一种基于决策树算法的客服终端冗余数据迭代消除方法。采用数据仓库法抽取并集成客服终端数据,对字符类数据进行去停用词和中文分词预处理,对数值类数据进行缺失值填补和离散值删除预处理。构建ID3决策树,分类客服终端数据,计算同一类数据的类间相似度,构建冗余数据判断规则,检测客服终端冗余数据,联合消除器消除冗余数据。实验结果表明:所研究方法应用后,可以消除客服终端冗余数据,空间缩减比更接近冗余率。  相似文献   

7.
欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集的相似度冗余系数对多数类样本进行去冗余删除,以达到欠抽样的目的。对15个不同平衡率的数据集欠抽样后,利用代价敏感混合属性多决策树模型进行分类。实验结果表明,在不降低非平衡数据集分类准确率的前提下,该方法能够提高少数类样本的正类率及预测模型的G-mean值。  相似文献   

8.
钱冬云 《微计算机信息》2007,23(21):207-208,267
本文在针对关联规则的Apriori算法的基础上,为了提高用户数据挖掘的人机交互性能,解决关联规则挖掘产生冗余规则的问题,提出了基于用户导向的关联规则挖掘方法SQL-IIAR算法.  相似文献   

9.
用户评论中产品特征的抽取及聚类   总被引:1,自引:0,他引:1  
在用户评论中蕴含了大量的产品特征和用户对这些特征的观点和态度.本研究提出了基于Apriori关联规则算法的产品特征抽取方法,利用与种子特征集合的互信息和与观点词的共现度对候选特征进行过滤;并提出了一种特征自动聚类方法,以特征词间的字符串相似度和语义相似度以及特征所对应的观点词作为衡量产品特征之间关联程度的特征,采用K-means聚类算法对产品特征进行聚类.本研究采用大众点评网对美食店铺的评论语料,对该方法进行了数据实验,实验结果初步验证了该方法有效性.  相似文献   

10.
为了解决大规模数据环境下挖掘出的关联规则过多,用户需要耗费大量时间在这些关联规则中寻找自己感兴趣规则的问题,提出了一种基于Map/Reduce并行化编程模型的前后部项约束关联规则挖掘算法FRPFP.通过对用户感兴趣的规则前后部项进行标记和分组挖掘,并在各分组挖掘过程中根据标记的规则前后部约束项,对事务集进行压缩,从而筛选出有效的频繁项集,最终得到含有用户感兴趣项的关联规则.该算法在Spark框架中实现,实验结果表明,该算法能够有效地减少冗余规则的产生,计算开销较少,具有较好的规模增长性.  相似文献   

11.
电力调度数据挖掘后处理方法的研究   总被引:1,自引:0,他引:1  
关联规则是数据依赖关系的有效描述方法,是知识发现研究的重要内容.然而,随着所挖掘数据库规模的增大,由传统数据挖掘算法所生成的大量关联规则常常令用户的使用与分析十分困难.文中提出了一种新方法来解决这个问题并将其运用到电力调度数据挖掘系统中.实验结果表明,该方法消除了大量冗余规则,并且使用户可以从整体上把握整个规则集,提高了关联规则挖掘的准确性和易用性.  相似文献   

12.
在信息及数据爆炸的时代,冗余问题已经成为数据挖掘者获得知识的重大障碍,而目前解决的方法会导致关联规则的不完整性。基于此,文中引入了有向超图表示关联规则,重定义了邻接矩阵,介绍了冗余规则分类处理思想,将冗余规则分为从属规则和重复路径规则,通过VB编程去除了从属规则冗余,以及利用生成树算法去除了重复路径规则冗余。实验结果证明,此方法创新性地结合了图论中有向超图、生成树与关联规则的知识,维护了关联规则的完整性和准确性,同时去除了全部冗余规则。  相似文献   

13.
关联规则挖掘是经典的数据挖掘方法,越来越多的企业都把它看作是必不可少的战略分析工具。当前关联规则挖掘方法得到的规则过多,令用户在运用时难以理解,因此研究关联规则集的约简方法具有应用价值。研究了数据库模式中关键字包含的主属性对基于Apriori算法的关联规则挖掘产生的关联规则的影响,即部分函数依赖会导致关联规则挖掘的数据集中冗余信息的频繁出现,并产生没有实际价值的关联规则,识别并消除这样的规则就能实现规则集的约简。求全部主属性如同求所有候选关键字问题都是NP难题,因此提出了一种基于一个候选关键字进行验证的算法来判定主属性,从而完成基于主属性判定的关联规则挖掘约简算法的设计与实现,并在最后的实验中验证了该算法的有效性。   相似文献   

14.
聚类及关联规则挖掘是数据挖掘领域中的两种重要方法。先使用聚类法将比较接近的数据分为同一簇,再分别对已经减少了数据量的每一簇作关联规则挖掘,这样,结合了两种方法的优点,改进了仅使用单一方法的缺点,能够获得更多的信息,有助于更加容易且有效地分析数据。  相似文献   

15.
贾桂霞  张永 《计算机工程与设计》2006,27(12):2175-2177,2186
在数据挖掘领域,关联规则的挖掘和基于粗糙集理论抽取决策规则是两种截然不同的方法,但在统计意义下两种方法产生的规则基本相同。结合关联规则挖掘方法和粗糙集方法的优点,基于Apriori算法提出一种优化算法,获取具有一定支持度和可信度阈值且不产生冗余的决策规则,以提高粗糙集属性值约简算法的性能。  相似文献   

16.
目前数据库关联规则的增量挖掘作为数据挖掘的一个重要的领域, 已经广泛应用于教育, 医疗, 卫生等领域, 因此它成为了当今数据挖掘中最活跃, 最重要的一个分支领域. 数据库中的数据存在大量未知的数据以及不可知的数据变化. 若采用Apriori算法进行计算, 一方面很难取得较好的结果, 另一方面支持度的变化对结果的影响很大, 无法确定支持度的变化, 因此借助属性论中定性属性的机理以及属性计算网络的边界学习算法, 结合IUBM算法提出了一种基于定性属性的关联规则的增量挖掘算法. 比如在以分数划线招生制度下, 定性基准的一分之差, 可能完全改变一个学生的一生的命运. 通过实验表明, 该算法在处理大规模数据的增量式关联规则的挖掘中减少了冗余规则的产生, 同时挖掘效率得到了很大的提升. 对于诸如预测大学生就业的情况及招聘企业对于应届生学习情况的了解等应用十分有意义.  相似文献   

17.
为了从大量工艺数据中获得潜在的、有价值的工艺知识,提出了基于粗糙集的焊接类型关联规则提取方法。分析与焊接类型相关的属性,建立焊接类型选择的决策表,应用粗糙集属性约简删除对焊接类型选择没有影响的属性。应用Apriori算法获取频繁项集,为了减少冗余项集产生,采用不同属性的项集进行联接;应用较低的支持度和较高的置信度提取强规则。以具体的实例验证了该方法,提取的规则对焊接类型的选择有很好的参考价值。  相似文献   

18.
In this paper a new method towards automatic personalized recommendation based on the behavior of a single user in accordance with all other users in web-based information systems is introduced. The proposal applies a modified version of the well-known Apriori data mining algorithm to the log files of a web site (primarily, an e-commerce or an e-learning site) to help the users to the selection of the best user-tailored links. The paper mainly analyzes the process of discovering association rules in this kind of big repositories and of transforming them into user-adapted recommendations by the two-step modified Apriori technique, which may be described as follows. A first pass of the modified Apriori algorithm verifies the existence of association rules in order to obtain a new repository of transactions that reflect the observed rules. A second pass of the proposed Apriori mechanism aims in discovering the rules that are really inter-associated. This way the behavior of a user is not determined by “what he does” but by “how he does”. Furthermore, an efficient implementation has been performed to obtain results in real-time. As soon as a user closes his session in the web system, all data are recalculated to take the recent interaction into account for the next recommendations. Early results have shown that it is possible to run this model in web sites of medium size.  相似文献   

19.
最小冗余的无损关联规则集表述   总被引:1,自引:0,他引:1  
陈茵  闪四清  刘鲁  李岩 《自动化学报》2008,34(12):1490-1496
传统关联规则挖掘得到的原始规则集包含大量的、杂乱的规则, 其中很多是冗余的, 这样的规则集难以被用户理解和应用. 针对这一问题, 探讨了原始规则集与规则集表述之间的关系, 提出了一个新的规则集表述模型. 该模型包含一个利用概率统计原理构建的推演系统, 能够从原始规则集中去除冗余规则, 得到无损的规则集表述. 这种规则集表述比原始规则集更简洁、更易于理解以及更便于用户管理和应用. 更重要的是, 该模型得到的规则集表述是无损的, 能够实现原始规则集和规则集表述之间的相互推演, 保证了信息的完整性. 在四个著名数据集上进行的实验表明, 规则集表述中的规则数量显著减少.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号