共查询到20条相似文献,搜索用时 93 毫秒
1.
为了研究患者在不同医院间的转诊行为模式, 可以使用序列模式挖掘算法. 类Apriori算法是序列模式挖掘中的常用算法, 但该算法存在一些不足之处, 如产生候选序列的数目较多、需要频繁扫描数据库. 针对类Apriori算法存在的不足, 本文提出了相应的改进措施, 采用新的剪枝策略并减少不必要的数据库扫描操作. 实验证明, 改进后的算法能更高效地挖掘频繁转诊序列. 相似文献
2.
基于图结构的候选序列生成算法 总被引:3,自引:1,他引:3
先生成候选序列再判断候选序列是否为频繁序列,最后获得频繁序列是序列数据挖掘中基于候选序列挖掘算法的一般结构,如Apriori类算法,GSP算法,SPADE算法等。因此,研究候选序列生成算法具有普遍意义。本文首先研究了序列数据集(序列数据库)与图结构间的关系,证明了一个序列是频繁序列的必要条件是该序列对应于一个完全子图。以此为基础提出了基于图结构的候选序列生成算法,文中给出了算法正确性证明。在T25110D10K和T25120D100K数据集上的挖掘实验表明在本文提出的候选序列生成算法上进行挖掘比用Apriori算法进行挖掘的效率更高。 相似文献
3.
4.
5.
序列模式挖掘能够发现隐含在Web日志中的用户的访问规律,可以被用来在Web预取模型中预测即将访问的Web对象。目前大多数序列模式挖掘是基于Apriori的宽度优先算法。提出了基于位图深度优先挖掘算法,采用基于字典树数据结构的深度优先策略,同时采用位图保存和计算各序列的支持度,能够较迅速地挖掘出频繁序列。将该序列模式挖掘算法应用于Web预取模型中,在预取缓存一体化的条件下实验表明具有较好的性能。 相似文献
6.
7.
为了提高序列模式挖掘的FLWAP-mine算法挖掘海量数据的效率和性能,基于减少数据库访问次数原则和序列模式的Apriori性质对FLWAP-mine算法进行改进,构造FLWAP-tree过程中只扫描一次访问序列数据库,对树进行剪枝删除非频繁事件。模式挖掘过程中采取投影数据库思想,只搜索当前模式的投影树,对构造的投影树判断剪枝,去除非频繁事件,进一步缩小搜索范围。实验表明,当数据量较大或支持度阈值较小时,改进的FLWAP-mine算法比FLWAP-mine算法有更好的性能。 相似文献
8.
Xiu-LiMa Yun-HaiTong Shi-WeiTang Dong-QingYang 《计算机科学技术学报》2004,19(C00):76-76
频繁模式的挖掘是数据挖掘领域中一个非常重要的问题,目前在高效、可扩展的频繁模式挖掘算法方面有大量研究。已有频繁模式挖掘算法大致分为两类:基于候选生成一测试策略的Apriori算法以及基于分而治之策略的频繁模式增长算法。已有的工作大多都假设待挖掘的数据是不变的。实际 相似文献
9.
现有的大多数空间伴生模式挖掘算法采用类似Apriori生成方法,通过自底向上,逐层检验的方式挖掘频繁模式。本文提出了一种新的基于伴生模式行实例投影树CPRIP—Tree(Co—location Pattern Row_Instance Projection Tree)的挖掘算法,该算法通过实例查找方式生成伴生模式行实例以构建CPRIP—Tree,并在其基础上上直接挖掘频繁模式。最后通过模拟数据实例分析证明了该算法较基于Apriori算法具有更高的挖掘效率。 相似文献
10.
序列模式图及其构造算法 总被引:11,自引:0,他引:11
序列模式挖掘是数据挖掘的一个重要分支。在序列事务及有关信息处理中有着广泛的应用,目前已有许多序列模式模型及相应的挖掘算法,该文在对序列模式挖掘问题及挖掘算法进行分析的基础上。定义了一种称为序列模式图的序列模式框架。用于表示序列模式挖掘过程发现的所有序列模式,序列模式图是由离散状态的序列集到统一的图结构的桥梁,可以将序列模式挖掘结果统一到序列模式图中来,基于序列模式图进行研究可发现某些结构化的新知识,称之为后序列模式挖掘,文中还给出了序列模式图的有关性质及构造算法。 相似文献
11.
为解决传统频繁模式挖掘算法效率不高的问题,提出了一种改进的基于FP-tree (Frequent pattern tree)的Apriori频繁模式挖掘算法.首先,在Apriori算法的连接步加入连接预处理过程;其次,对CP-tree (Compact Pattern tree)进行扩展,构造了一个新的树结构ECP-tree (Extension of Compact Pattern tree),新的树结构只需对数据库进行一次扫描就能构造出一棵紧凑的前缀树,且支持交互式挖掘与增量挖掘;然后,将改进点与APFT算法结合,用于挖掘频繁模式;最后,使用UCI数据库中两个数据集进行实验.实验结果表明:改进算法具有较高的挖掘效率,频繁模式挖掘速度显著提升. 相似文献
12.
Apriori算法的改进 总被引:10,自引:0,他引:10
介绍关联规则挖掘的情况,在分析关联规则挖掘算法的基础上,通过对经典Apriori算法的改进,提出一种改进算法,该算法在计算候选大项集支持度所涉及的记录数目将小于事务数据库中原始的记录数目,实验证明该算法能够有效提高执行效率。 相似文献
13.
Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果表明,该算法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。 相似文献
14.
基于Web日志的用户访问模式挖掘 总被引:1,自引:0,他引:1
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。 相似文献
15.
频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。 相似文献
16.
关联规则挖掘Apriori算法的改进与实现 总被引:11,自引:2,他引:11
Apriori算法是关联规则挖掘的一个经典算法,提高Apriori算法关联规则挖掘效率的关键是减少候选集的数量。通过分析、研究该算法的基本思想,文中提出利用Hash表存储技术对该算法进行改进,通过删除项Hash表来减少生成候选集的数量,从而提高算法的效率。实验结果表明,该改进算法能有效地提高关联规则挖掘的效率。 相似文献
17.
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性。通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题。Apriori算法是关联规则挖掘中的经典算法。对Apriori算法做了改进。借助0—1矩阵给出了计算项集的支持度计数的更快方法,同时还简化了Apriori算法中的连接和剪枝操作,从而在时间和空间上提高了Apriori算法的效率。 相似文献
18.
李莉 《自动化与仪器仪表》2014,(7):1-4
根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框架,并且结合验证MR-Apriori算法的实验为基础,这对传统意义上的Apriori算法在数据挖掘过程中所出现的客观问题进行处理,从而真正意义上的完成了本文研究的基于MapReduce并行的Apriori算法的扩展性提升的目标,并且表明了元计算技术结合关联规则挖掘算法的可能性。 相似文献
19.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.在对关联规则挖 掘中基于Apriori算法的改进算法进行深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法.最后,对频繁项集挖掘算法的发展方向进行了初步的探讨. 相似文献
20.
针对高校课程评价,研究数据驱动的教学管理与决策问题.由某校的课程评价指标体系,确定涵盖学生、教师、同行专家和教学督导等多维度评价数据的数据结构.对采集的调查问卷数据进行清洗和转换等预处理后,构造完成供数据挖掘的数据集.考虑误导性规则抑制,使用基于差异兴趣度的改进Apriori关联规则挖掘算法,提取评价指标间的关联规则.将发现的关系模式与使用传统Apriori关联规则挖掘算法所得结果进行比较,显示本文所用改进Apriori方法能够提高知识发现的效率和准确性,对课程建设具有更强的指导作用. 相似文献