共查询到19条相似文献,搜索用时 671 毫秒
1.
基于频繁项集挖掘最大频繁项集和频繁闭项集 总被引:3,自引:1,他引:2
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。 相似文献
2.
《计算机应用与软件》2017,(9)
传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多最小项目支持度模型应用于关联分类,以有效挖掘稀有项。该算法为数据库中的规则项提供了用户可定义的最小项目支持度。MS-CBAR算法使用项的最小项支持度阈值、类的最小类支持度值和规则项的最小支持度值决定分类规则是否频繁。生成分类规则集后,使用最高优先度规则覆盖法基于规则集建立分类器。实验表明,所提算法在包含稀有项目及稀有类的数据集中准确率高于传统关联分类算法及其相关算法,表现更稳定。 相似文献
3.
CBC-DS:基于频繁闭模式的数据流分类算法 总被引:2,自引:0,他引:2
基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率.为此,提出了一种高效的基于频繁闭模式的数据流分类算法-CBC-DS.主要贡献在于:1)提出了一种基于逆文法顺序FP-Tree的频繁闭项集单遍挖掘过程,用于挖掘类关联规则,该过程采用了一种混合项顺序搜索策略以满足数据流挖掘的单遍性需求,并采用位图技术提高效率;2)提出了"自支持度"概念,用于筛选规则以提高算法分类精度.实验表明,位图技术能够提高算法速度2倍以上,利用自支持度能够提高算法平均精度0.5%左右;最终CBC-DS算法的平均分类精度比经典算法CMAR高1%左右,并且CBC-DS算法的规则挖掘速度远快于CMAR算法. 相似文献
4.
5.
关联分类及较多的改进算法很难同时既具有较高的整体准确率又有较好的小类分类性能。针对此问题,提出了一种基于类支持度阈值独立挖掘的关联分类改进算法—ACCS。ACCS算法的主要特点是:(1)根据训练集中各类数量大小给出每个类类支持度阈值的设定方法,并基于各类的类支持度阈值独立挖掘该类的关联分类规则,尽量使小类生成更多高置信度的规则;(2)采用类支持度对置信度相同的规则排序,提高小类规则的优先级;(3)用综合考虑置信度和提升度的新的规则度量预测未知实例。在多个数据集上的实验结果表明,相比多种关联分类改进算法,ACCS算法有更高的整体分类准确率,且在不平衡数据上也能取得较好的小类分类性能。 相似文献
6.
事务间频繁项集将传统的单维事务内关联规则扩展到多维跨事务关联规则,但事务问频繁项集的数量随滑 动时同间窗口的增大而迅速增加.利用频繁闭项集的特点.提出事务间频繁闭项集的概念及其挖掘算法(FCITA).该算法采用分割和条件数据库技术,避免生成庞大的扩展数据库;利用扩展二进制形武压缩事务,从而提高支持度的计算效事.此外,动态排序和哈希表极大地减少了频繁闭项集的测试次数.仿真比较表明,FCITA算法具有较高的挖掘效率. 相似文献
7.
8.
9.
回顾了常见的关联规则算法,关注频繁闭项集这一非常有发展前途的方法.在综合Tough型约束与频繁闭项集的基础上,提出了关联规则的一种新算法--基于Tough型约束的频繁闭项集挖掘算法(TC-based FCIM Algorithm),分析了算法中选择过程和过滤过程这两个重要过程的先后顺序. 相似文献
10.
许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。 相似文献
11.
12.
杨萍 《计算机工程与应用》2003,39(34):197-200
最大频繁项目集挖掘是多种数据挖掘应用研究的一个重要方面,最大频繁项目集的快速挖掘算法研究是当前研究的热点。传统的最大频繁项目集挖掘算法要多遍扫描数据库并产生大量的候选项目集。为此,该文提出了基于F-矩阵的最大频繁项目集快速挖掘算法FMMFIBFM,FMMFIBFM采用FP-tree的存储结构,仅须扫描数据库两遍且不产生候选频繁项目集,有效地提高了频繁项目集的挖掘效率。实验结果表明,FMMFIBFM算法是有效可行的。 相似文献
13.
Margin-closed itemsets have previously been proposed as a subset of the closed itemsets with a minimum margin constraint on
the difference in support to supersets. The constraint reduces redundancy in the set of reported patterns favoring longer,
more specific patterns. A variety of patterns ranging from rare specific itemsets to frequent general itemsets is reported
to support exploratory data analysis and understandable classification models. We present DCI_Margin, a new efficient algorithm that mines the complete set of margin-closed itemsets. We modified the DCI_Closed algorithm that has low memory requirements and can be parallelized. The margin constraint is checked on-the-fly reusing information
already computed by DCI_Closed. We thoroughly analyzed the behavior on many datasets and show how other data mining algorithms can benefit from the redundancy
reduction. 相似文献
14.
基于图的关联规则挖掘算法会产生大量候选项集。针对该问题,提出一种结合双向搜索策略的改进算法。按照支持度对频繁 1-项集排序,对频繁k-项集的最长超集进行验证,利用Apriori算法进行剪枝。实验结果表明,在支持度阈值较小时,改进算法能有效减少候选项集的数量,提高挖掘效率。 相似文献
15.
16.
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。 相似文献
17.
18.
一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法 总被引:9,自引:2,他引:7
目前已提出了许多快速的关联规则挖掘算法,实际上用户只关心部分关联规则,如他们仅想知道包含指定项目的规则.当这些约束被用于数据预处理或将它结合到数据挖掘算法中去时,可以显著减少算法的执行时间.为此,考虑了一类包含或不包含某些项目的布尔表达式约束条件,提出了一种快速的基于FP—tree的约束最大频繁项目集挖掘算法CMFIMA,并对其更新问题进行了研究,提出了一种增量式更新约束最大频繁项目集挖掘算法CMFIUA. 相似文献
19.
蚁群算法在最大频繁项集挖掘问题中的应用 总被引:3,自引:1,他引:2
最大频繁项集的挖掘在关联规则挖掘中起着非常重要的作用,将其抽象为带约束条件的子集问题,利用蚁群算法进行求解.实验结果表明,与传统的Apriori算法相比,在最小支持度较小的情况下,蚁群算法具有较快的挖掘速度,在大部分情况下能够获得所有的最大频繁项集,实验表明了蚁群算法在求解最大频繁项集挖掘问题上的有效性. 相似文献