共查询到20条相似文献,搜索用时 140 毫秒
1.
针对关联数据集合呈现出的大数据特性和蕴含的语义信息,提出了首先建立关联数据集的模式级链接,再进行关联规则挖掘的方法。在同领域RDF数据集上定义RDF数据项模式并提出数据项模式的产生规则;利用RDF数据查询技术从数据项模式获得RDF数据项集合,进而再推导出特定领域内的关联规则。提出的基于关联数据RDF数据项模式的关联规则挖掘方法将关联规则挖掘扩展到同一领域内的数据集合而不再局限于单一数据集,同时给出了基于Hadoop的大规模RDF数据集上的关联规则挖掘的实现方案。实验结果验证了模式级链接对于关联规则挖掘的价值和所提方法的有效性。 相似文献
2.
传统的关联规则挖掘研究事务中所包含的项与项之间的关联性,而负关联规则挖掘不仅要考虑事务中包含的项,还要考虑事务中不包含的项。给出了完全负关联规则的定义,提出一种基于树的算法Free-PNP,通过此算法挖掘数据库中的负频繁模式,继而得到所要挖掘的完全负关联规则。通过实验验证了算法的有效性。 相似文献
3.
本文将分类关联规则挖掘算法应用到文本特征提取领域,给出了一种二次提取方法:在第一阶段,用DF“落差”来初步筛选特征项。第二阶段挖掘分类关联规则。实验证明该方法效果较好;并且在保证精度的情况下,有效降低特征项数目。 相似文献
4.
5.
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。 相似文献
6.
针对传统分布式数据库中关系数据正负关联规则挖掘的准确度较低、挖掘效率较低等问题,提出一种新的分布式数据库中关系数据正负关联规则挖掘方法.在关联规则基本概念和性质分析基础上,利用多级支持度从频繁项集中生成正关联规则,结合根据频繁项集和非频繁项集生成负关联规则,通过最小支持度合理设置相关置信度,引入不同权重值于各数据库中,实现分布式数据库中关系数据正负关联规则的挖掘.仿真结果表明,以上算法可有效识别结果规则集中的负关联规则和弱关联规则,确保数据库中关联数据挖掘更加准确;在不同最小支持度或不同事务数条件下,挖掘速度较快,提升了挖掘效率. 相似文献
7.
关联规则挖掘是数据挖掘领域中最活跃的一个分支。目前提出的许多关联规则挖掘算法需要多次扫描数据库并产生大量候选项集,影响了挖掘效率。针对加权关联规则挖掘算法中多次扫描数据库影响算法性能的问题,对其进行了优化,采取了以空间换时间的思路,提出一种基于向量的概率加权关联规则挖掘算法。以求概率的方式设置项目属性的权值,通过矩阵向量存储结构保存事务记录,只需扫描一次数据库,并且采用不同的剪枝策略及加权支持度和置信度的计算方式。使用数据实例进行模拟实验,结果表明此算法明显提高了挖掘效率。 相似文献
8.
语义Web环境下的关联规则挖掘是数据挖掘领域新的研究热点.本文针对SWRL数据集的特征,建立新的数据挖掘形式背景,将FCA用于关系型关联规则的挖掘,提出了基于搜索空间分割的关联规则挖掘方法.采用FCA作为频繁模式的压缩表示方式,从生成的闭查询导出的关联规则,可有效控制冗余规则的产生.将搜索空间进行划分可减小问题的规模,充分利用已有的挖掘过程的中间结果所提供的信息,减少了计算量.由于采用了分而治之的策略,本文的方法易于扩展到对海量语义Web数据的并行处理. 相似文献
9.
针对现有加权关联规则挖掘算法不能适用于矩阵加权数据的缺陷,给出一种新的矩阵加权项集剪枝策略,构建矩阵加权正负关联模式评价框架SRCCCI,提出一种新的基于SRCCCI评价框架的矩阵加权正负关联规则挖掘算法MWARM-SRCCCI。该算法克服了现有挖掘技术的缺陷,采用新的剪枝技术和模式评价方法,挖掘有效的矩阵加权正负关联规则,避免一些无效和无趣的模式产生。以中文Web测试集CWT200g为实验数据,与现有无加权正负关联规则挖掘算法比较,MWARM-SRCCCI算法的挖掘时间减幅最大可达74.74%。理论分析和实验结果表明,MWARM-SRCCCI算法具有较好的剪枝效果,候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高,其关联模式可为信息检索提供可靠的查询扩展词来源。 相似文献
10.
11.
虽然FP-Growth算法能够有效地从数据库中挖掘频繁模式,但如何由其挖掘出的频繁模式中高效地产生关联规则仍是一个相当复杂的问题。该文提出了用于组织频繁模式的线索频繁模式树(TFPT)和一个从TFPT中挖掘关联规则的高效算法—最短模式优先算法(SPF)。挖掘模式Y的关联规则时,SPF算法应用了两个优化策略,避免了对大量的不可能成为规则XY-X左部的Y的子集的检查,从而获得了很好的性能。实验表明:与类FP-Growth算法结合时,SPF算法运行速度远远快于Apriori算法,并有相当好的可伸缩性。 相似文献
12.
13.
R-means:以关联规则为簇中心的文本聚类 总被引:2,自引:0,他引:2
本文将k-means与关联规则(或频繁项目集)相结合,提出了一种新的文本聚类算法R-means.R-means算法以关联规则作为簇中心,通过类似于k-meams的迭代优化得到最终的簇.因此R-means不仅继承了k-means的简单性,而且用关联规则产生的簇描述易于为人们所理解.在几个实际数据集上的实验表明该算法可以得到高精度和高性能. 相似文献
14.
15.
16.
文章针对普通关联规则不能表达挖掘对象中模糊信息的关联性的问题,给出了一系列有关模糊关联规则的定义,并提出了一种基于关系数据库的模糊关联规则挖掘算法(FARMBT)。实验结果表明,FARMBT算法是有效的。同时,关系数据库的广泛应用使FARMBT算法具有广泛的实用前景。 相似文献
17.
18.
在模糊时间序列模型建立的过程中,对数据的预处理和模糊规则的优化往往是影响模型预测精确度的关键因素.针对上述问题,提出基于主成分分析(PCA)的平稳化算法.首先,对数据进行平稳化检验,并将非平稳的数据进行预处理使其平稳;其次,对论域进行划分并根据模糊关系构建广义的协方差矩阵,由此计算广义协方差矩阵的特征值和特征向量;再次,根据特征值的累计贡献率优化模糊规则,利用优化后模型进行预测;最后,通过实际算例验证新算法的可行性. 相似文献
19.
提出了一种结合Apriori和Kuok's算法的改进的模糊关联规则算法.在定义隶属函数、决策树结构和规则集相似度的基础上,采用改进的挖掘算法挖掘数值属性的关联规则.实验结果表明,算法在规则生成和时间效率方面都显示了良好的性能. 相似文献