共查询到20条相似文献,搜索用时 62 毫秒
1.
基于最大关联规则的文本分类 总被引:1,自引:0,他引:1
我们提出了一种新颖的、基于最大关联的文本分类方法—SAT-MOD 。在文本分类中,以往的方法在挖掘频繁项集和关联规则的时候,往往是将整个文本看作一个事务来处理的,然而文本的基本的语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,SAT-MOD 把一篇文档里的某些句子作为一个单独的事务。通过在标准的文本集上的大量实验,证明了SAT-MOD 的有效性。 相似文献
2.
基于关联规则的数据挖掘技术综述 总被引:4,自引:0,他引:4
阐述在数据挖掘领域中的四种常用的数据挖掘技术方法,以数据挖掘技术中的关联规则挖掘为基础,阐述关联规则挖掘的经典算法Apriori算法的基本思想。通过关联规则挖掘算法实验给出该算法的具体使用方法,总结该算法存在的不足。 相似文献
3.
关联规则是数据挖掘研究的一个重要分支。阐述了关联规则的基本概念、关联规则挖掘的基本模型;详细分析了关联规则挖掘的经典算法-Apriori算法,Apriori算法核心思想、性能分析及其改进技术。 相似文献
4.
关联规则提取中对Apriori算法的一种改进 总被引:25,自引:0,他引:25
王创新 《计算机工程与应用》2004,40(34):183-185
关联规则的提取是数据挖掘中的重要研究课题,该文对关联规则提取中的Apriori算法进行了深入研究,指出了该算法的某些不足,提出了一种改进算法。实验结果表明,该算法性能明显优于Apriori算法,具有较高的推广价值。 相似文献
5.
基于云南气象数据的空间关联规则挖掘 总被引:5,自引:0,他引:5
空间关联规则挖掘可以深入发现现实世界大量空间谓词和非空间谓词之间的特定空间关系。论文结合气象数据的特点和已有传统关联规则挖掘算法的优点,针对云南气象数据提出了一种基于项目序列集的空间关联规则挖掘算法。通过严格的算法分析和具体实验表明,该算法是有效、可行的。 相似文献
6.
周海岩 《计算机与应用化学》2009,26(11)
论文研究的目的是使数据挖掘的理论更完善,术语更准确。许多关联规则挖掘的文献中,出现了"最大频繁项目集(最大频繁模式)"这一术语。文中利用"序关系"这一基本数学理论,论证了"最大频繁项目集(最大频繁模式)"这一术语的提法是欠妥的,甚至是谬误。并依据这一基本理论,对相关概念给予正确定义。 相似文献
7.
8.
关联规则挖掘中若干关键技术的研究 总被引:36,自引:0,他引:36
Apriori类算法已经成为关联规则挖掘中的经典算法,其技术难点及运算量主要集中在以下两个方面:① 如何确定候选频繁项目集和计算项目集的支持数;② 如何减少候选频繁项目集的个数以及扫描数据库的次数.目前已提出了许多改进方法来解决第2个问题,并已取得了很好的效果.然而,对于第1个问题,仍沿用Apriori算法中的解决方案,其运算量是较大的.为此,提出了一种基于二进制形式的候选频繁项目集生成和相应的计算支持数算法,该算法只需对挖掘对象进行一些“或”、“与”、“异或”等逻辑运算操作,显著降低了算法的实现难度,将该算法与Apriori类算法相结合,可以进一步提高算法的执行效率,实验结果也表明算法是有效、快速的. 相似文献
9.
10.
基于FP-growth的关联规则增量更新算法 总被引:2,自引:0,他引:2
针对最小支持度不变,事务数据库内容不断增加的关联规则更新问题,提出了一种简单高效的增量关联规则更新算法FPUA。 相似文献
11.
一个改进的关联规则的频繁项目集数据挖掘算法 总被引:1,自引:0,他引:1
在关联规则中的Apriori算法,具有天生的缺陷,运行效果很不理想。为了克服Apriori算法的缺点,本文提出了一个改进的算法:在产生频繁项目集组合时,只需扫描数据库一次,这样就可以有效率地降低I/O的存取时间,更快速地找出符合使用者需求的关联规则。仿真实验表明,该算法是有效的。 相似文献
12.
该文在对关联规则挖掘中Apriori算法的深入研究和分析的基础上,发现并指出了该算法存在的不足,并对其进行以下三方面改进:改善候选项集支持度的计算方法;缩小候选项集的生成规模;减少对数据库的扫描次数。实验结果表明.改进算法性能得到了明显提高。 相似文献
13.
该文在对关联规则挖掘中Apriori算法的深入研究和分析的基础上,发现并指出了该算法存在的不足,并对其进行以下三方面改进:改善候选项集支持度的计算方法;缩小候选项集的生成规模;减少对数据库的扫描次数。实验结果表明,改进算法性能得到了明显提高。 相似文献
14.
分析最大频繁项集和完全频繁项集的关系,提出了一个挖掘最大频繁项集的高效算法DFMFI—Miner(The Miner Basedon Depth—First Searching for Mining Maximal Frequent Itemsets),采用深度优先方法搜索项集空间,采用垂直位图及一定的压缩方法对表示事务数据库并进行约简,并采用多种有效剪枝策略和优化策略,提高了算法的效率。在多个数据集上进行了实验,实验结果表明该算法特别适于挖掘具有长频繁项集的数据集。 相似文献
15.
一种多支持度的关联规则采集算法 总被引:5,自引:1,他引:5
关联规则采集是数据采集中的一类重要模型。规则采集算法用来发现数据中所有满足用户指定的最小支持度和最小可信度的子项美联(即规则)。国外某些学者提出了一个多支持度的模型,解决了单支持度模型中可能出现的稀有子项问题。基于该多支持度的模型提出了一种新的数据采集算法。 相似文献
16.
文章针对普通关联规则不能表达挖掘对象中模糊信息的关联性的问题,给出了一系列有关模糊关联规则的定义,并提出了一种基于关系数据库的模糊关联规则挖掘算法(FARMBT)。实验结果表明,FARMBT算法是有效的。同时,关系数据库的广泛应用使FARMBT算法具有广泛的实用前景。 相似文献
17.
关联规则算法的实现与改进 总被引:11,自引:0,他引:11
关联规则作为一种数据挖掘的工具,它能够发现数据项集之间有趣的关联。在关联规则的算法中,Apriori算法是其中的关键算法之一。面对大量复杂的数据集,怎样选择数据结构,怎样优化处理过程,对于此算法的性能将会十分重要。该文首先介绍了关联规则的原理和Apriori算法的实现,然后提出了对该算法的若干改进,例如:采用树型结构存取频繁项集,使用三种缓存优化的方法等。这些优化都能够在整体上提高算法的效率。对于大数据项,试验显示,这些改进能够正确、有效、快速地实现Apriori算法。 相似文献
18.
19.
基于FP-tree的最大频繁模式挖掘算法 总被引:11,自引:0,他引:11
在FP-tree结构的基础上提出了最大频繁模式挖掘算法FP-Max。算法FP-Max只需要两次数据库扫描,挖掘过程不会产生候选项集。实验表明.算法FP-Max在挖掘密集型数据集方面是高效的。 相似文献