共查询到20条相似文献,搜索用时 125 毫秒
1.
阐述在数据挖掘领域中的四种常用的数据挖掘技术方法,以数据挖掘技术中的关联规则挖掘为基础,阐述关联规则挖掘的经典算法Apriori算法的基本思想。通过关联规则挖掘算法实验给出该算法的具体使用方法,总结该算法存在的不足。 相似文献
2.
CBC-DS:基于频繁闭模式的数据流分类算法 总被引:2,自引:0,他引:2
基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率.为此,提出了一种高效的基于频繁闭模式的数据流分类算法-CBC-DS.主要贡献在于:1)提出了一种基于逆文法顺序FP-Tree的频繁闭项集单遍挖掘过程,用于挖掘类关联规则,该过程采用了一种混合项顺序搜索策略以满足数据流挖掘的单遍性需求,并采用位图技术提高效率;2)提出了"自支持度"概念,用于筛选规则以提高算法分类精度.实验表明,位图技术能够提高算法速度2倍以上,利用自支持度能够提高算法平均精度0.5%左右;最终CBC-DS算法的平均分类精度比经典算法CMAR高1%左右,并且CBC-DS算法的规则挖掘速度远快于CMAR算法. 相似文献
3.
OLAP关联规则挖掘 总被引:17,自引:1,他引:17
该文提出一种新的关联规则挖掘方法,OLAP关联规则挖掘。OLAP关联规则挖掘是OLAP技术和一些高效的关联规则挖掘算法的结合。OLAP关联规则挖掘方法是一种灵活的、多维的、多层次的高性能方法。该文首先介绍了O-LAP关联规则挖掘的结构,最后详述了OLAP关联规则挖掘的具体实现。 相似文献
4.
在处理战略绩效KPI关联规则挖掘的问题时,由于FP-Growth不能根据业务的需要简化计算过程,从而产生了许多冗余计算,影响了算法的效率。因此,提出了一种基于FP-Growth的战略绩效关联分析算法。通过采用基于规则的约束方法对FP-Growth算法进行改进。一方面,在挖掘的过程中添加剪枝操作,提高频繁项集的挖掘效率;另一方面,在关联规则产生过程中,添加规则约束,生成符合业务要求的关联规则,从而减少了冗余计算,提高了算法的效率。最后,以"某高校科研服务质量指标"为例,验证了该算法的可行性。 相似文献
5.
针对现有加权关联规则挖掘算法不能适用于矩阵加权数据的缺陷,给出一种新的矩阵加权项集剪枝策略,构建矩阵加权正负关联模式评价框架SRCCCI,提出一种新的基于SRCCCI评价框架的矩阵加权正负关联规则挖掘算法MWARM-SRCCCI。该算法克服了现有挖掘技术的缺陷,采用新的剪枝技术和模式评价方法,挖掘有效的矩阵加权正负关联规则,避免一些无效和无趣的模式产生。以中文Web测试集CWT200g为实验数据,与现有无加权正负关联规则挖掘算法比较,MWARM-SRCCCI算法的挖掘时间减幅最大可达74.74%。理论分析和实验结果表明,MWARM-SRCCCI算法具有较好的剪枝效果,候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高,其关联模式可为信息检索提供可靠的查询扩展词来源。 相似文献
6.
7.
关联规则挖掘的基本算法 总被引:6,自引:0,他引:6
介绍了加权模糊关联规则挖掘算法的基本思想及实现步骤,并给出挖掘算法的多种策略。在此基础上,分析了加权模糊关联规则与模糊关联规则、布尔型属性加权关联规则、布尔型属性关联规则之间的内在联系,并指出加权模糊关联规则挖掘算法是一种最基本的关联规则挖掘算法,蕴涵了其它3种关联规则挖掘算法。 相似文献
8.
《计算机应用与软件》2019,(10)
关联规则挖掘作为一种大数据挖掘方法,被用于确定不同项目间存在的内在联系,并以大于某一阈值作为评判不同项间存在关联的依据。传统关联规则挖掘方法仅能建立不同项间的布尔型关联规则,存在硬化数据"尖锐边界"问题导致关联规则挖掘性能下降的缺点。为克服经典数据挖掘算法的这一缺陷,提出一种新型中智关联规则挖掘算法。基于专家知识对语言学术语进行量化预处理,得到不同指标的量化数据资料库;基于关联规则支持度定义计算不同指标项集合的支持度;通过考虑不同项间的隶属度、不确定度和非隶属度函数生成关联规则。将该中智挖掘算法与模糊挖掘算法进行对比,结果表明,该算法能够增加生成关联规则数量,有助于提高数据挖掘的准确性。 相似文献
9.
针对关联规则挖掘中连续属性离散化时的"尖锐边界"问题,提出了一种用直觉模糊集合理论来改进关联规则挖掘的方法,定义了直觉模糊非支持度和非置信度的概念,阐述了"支持度-非支持度-置信度-非置信度"的关联规则挖掘度量机制.描述了直觉模糊关联规则挖掘的基本原理和算法,并给出了算法的基本步骤,最后用实例验证了此算法的有效性. 相似文献
10.
11.
WANG Ai-xia 《数字社区&智能家居》2008,(27)
该文介绍了数据挖掘中两种重要的算法:1)发现数据分布和隐含模式的聚类算法;2)应用最为广泛的挖掘方法之一关联规则挖掘算法,并就它们在应用型院校本科教学评估中的应用进行了研究。 相似文献
12.
A support-ordered trie for fast frequent itemset discovery 总被引:2,自引:0,他引:2
Woon Y.-K. Ng W.-K. Lim E.-P. 《Knowledge and Data Engineering, IEEE Transactions on》2004,16(7):875-879
The importance of data mining is apparent with the advent of powerful data collection and storage tools; raw data is so abundant that manual analysis is no longer possible. Unfortunately, data mining problems are difficult to solve and this prompted the introduction of several novel data structures to improve mining efficiency. Here, we critically examine existing preprocessing data structures used in association rule mining for enhancing performance in an attempt to understand their strengths and weaknesses. Our analyses culminate in a practical structure called the SOTrielT (support-ordered trie itemset) and two synergistic algorithms to accompany it for the fast discovery of frequent itemsets. Experiments involving a wide range of synthetic data sets reveal that its algorithms outperform FP-growth, a recent association rule mining algorithm with excellent performance, by up to two orders of magnitude and, thus, verifying its' efficiency and viability. 相似文献
13.
Arik Friedman Ran Wolff Assaf Schuster 《The VLDB Journal The International Journal on Very Large Data Bases》2008,17(4):789-804
In this paper we present extended definitions of k-anonymity and use them to prove that a given data mining model does not violate the k-anonymity of the individuals represented in the learning examples. Our extension provides a tool that measures the amount
of anonymity retained during data mining. We show that our model can be applied to various data mining problems, such as classification,
association rule mining and clustering. We describe two data mining algorithms which exploit our extension to guarantee they
will generate only k-anonymous output, and provide experimental results for one of them. Finally, we show that our method contributes new and
efficient ways to anonymize data and preserve patterns during anonymization. 相似文献
14.
数据挖掘是关联规则中一个重要的研究方向。该文对关联规则的数据挖掘和遗传算法进行了概述,提出了一种改进型遗传算法的关联规则提取算法。最后结合实例给出了用遗传算法进行关联规则的挖掘方法。 相似文献
15.
In geographic association rule mining many patterns are either redundant or contain well known geographic domain associations
explicitly represented in knowledge resources such as geographic database schemas and geo-ontologies. Existing spatial association
rule mining algorithms are Apriori-like, and therefore generate a large amount of redundant patterns. For non-spatial data,
the closed frequent pattern mining technique has been introduced to remove redundant patterns. This approach, however, does
not warrant the elimination of both redundant and well known geographic dependences when mining geographic databases. This
paper presents a novel method for pruning both redundant and well known geographic dependences, by pushing semantics into
the pattern mining task. Experiments with real geographic databases have demonstrated a significant reduction of the total
amount of patterns and the efficiency of the method. 相似文献
16.
17.
数据挖掘是关联规则中一个重要的研究方向。该文对关联规则的数据挖掘和遗传算法进行了概述,提出了一种改进型遗传算法的关联规则提取算法。最后结合实例给出了用遗传算法进行关联规则的挖掘方法。 相似文献
18.
关联规则挖掘是数据挖掘领域非常重要的课题,在很多领域被广泛应用。关联规则挖掘算法都需要设置最小支持度和最小置信度。很多国内外学者研究的挖掘算法在这两方面都存在着一些问题,不仅需要大量的领域知识来设置合适的最小支持度,而且其结果集庞大、用户不容易理解。针对关联规则挖掘算法存在的问题,将命题逻辑融合到关联规则算法Eclat中,设计出了基于命题逻辑思想的挖掘算法L-Eclat。实验结果表明,L-Eclat算法压缩了挖掘的规则集,减小了算法的时间消耗,且即使是非常小的支持度也可以得到高质量的关联规则,这在一定程度上解决了支持度设置的问题。 相似文献
19.
From sequential pattern mining to structured pattern mining: A pattern-growth approach 总被引:10,自引:0,他引:10
下载免费PDF全文
![点击此处可从《计算机科学技术学报》网站下载免费的PDF全文](/ch/ext_images/free.gif)
Jia-WeiHan JianPei Xi-FengYan 《计算机科学技术学报》2004,19(3):0-0
Sequential pattern mining is an important data mining problem with broad applications. However,it is also a challenging problem since the mining may have to generate or examine a combinatorially explosivenumber of intermediate subsequences. Recent studies have developed two major classes of sequential patternmining methods: (1) a candidate generation-and-test approach, represented by (i) GSP, a horizontal format-basedsequential pattern mining method, and (ii) SPADE, a vertical format-based method; and (2) a pattern-growthmethod, represented by PrefixSpan and its further extensions, such as gSpan for mining structured patterns. In this study, we perform a systematic introduction and presentation of the pattern-growth methodologyand study its principles and extensions. We first introduce two interesting pattern-growth algorithms, FreeSpanand PrefixSpan, for efficient sequential pattern mining. Then we introduce gSpan for mining structured patternsusing the same methodology. Their relative performance in l 相似文献
20.
粒子群优化算法在关联规则挖掘中的研究综述 总被引:1,自引:0,他引:1
关联规则挖掘是数据挖掘中的重要领域,考虑到当前数据的大规模、高维度、模态多样及类型复杂等特性,传统关联规则挖掘算法已无法适应大数据的需求,粒子群优化算法作为一种高效的智能优化算法,为其提供了一种全新的解决方案,近年来被广泛应用于该领域.首先对粒子群优化算法的基本原理及关联规则的基本概念进行了详细介绍,回顾了粒子群优化算... 相似文献