首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
陶惠  蒋凡 《计算机系统应用》2015,24(10):253-258
为了研究患者在不同医院间的转诊行为模式, 可以使用序列模式挖掘算法. 类Apriori算法是序列模式挖掘中的常用算法, 但该算法存在一些不足之处, 如产生候选序列的数目较多、需要频繁扫描数据库. 针对类Apriori算法存在的不足, 本文提出了相应的改进措施, 采用新的剪枝策略并减少不必要的数据库扫描操作. 实验证明, 改进后的算法能更高效地挖掘频繁转诊序列.  相似文献   

2.
基于图结构的候选序列生成算法   总被引:3,自引:1,他引:3  
郭平  刘潭仁 《计算机科学》2004,31(1):136-139
先生成候选序列再判断候选序列是否为频繁序列,最后获得频繁序列是序列数据挖掘中基于候选序列挖掘算法的一般结构,如Apriori类算法,GSP算法,SPADE算法等。因此,研究候选序列生成算法具有普遍意义。本文首先研究了序列数据集(序列数据库)与图结构间的关系,证明了一个序列是频繁序列的必要条件是该序列对应于一个完全子图。以此为基础提出了基于图结构的候选序列生成算法,文中给出了算法正确性证明。在T25110D10K和T25120D100K数据集上的挖掘实验表明在本文提出的候选序列生成算法上进行挖掘比用Apriori算法进行挖掘的效率更高。  相似文献   

3.
传统序列模式挖掘算法往往忽略了序列模式本身的时间特性,所考查的序列项都是单一事件,无属性约束.提出了一种挖掘多属性约束事件序列关联规则的方法.此方法基于传统的Apriori和AprioriAU算法.考虑了应用环境下事件序列模式中事件之间的过渡时间,采用分层式挖掘思想,先挖掘频繁序列模式,然后从频繁事件序列中挖掘多属性约束项的关联规则.实例分析为挖掘带时间限多属性约束的序列模式提供了实施思路.  相似文献   

4.
传统的类Apriori频繁序列模式挖掘算法都是基于支持度框架理论,需要预先设定支持度阈值,而这通常需要较深的领域知识或大量的实践,因此目前仍没有一种很好的设定方法.同时,序列模式的挖掘结果往往数量很大且不易理解,可用性较低.针对上述问题,提出了一种基于逻辑的频繁序列模式挖掘算法即LFSPM算法,并首次在频繁序列模式挖掘算法中引入了逻辑的思想,通过逻辑规则过滤,大大优化了结果集.实验证明,该算法较好地解决了支持度设置问题及挖掘结果可理解性不高的问题.  相似文献   

5.
序列模式挖掘能够发现隐含在Web日志中的用户的访问规律,可以被用来在Web预取模型中预测即将访问的Web对象。目前大多数序列模式挖掘是基于Apriori的宽度优先算法。提出了基于位图深度优先挖掘算法,采用基于字典树数据结构的深度优先策略,同时采用位图保存和计算各序列的支持度,能够较迅速地挖掘出频繁序列。将该序列模式挖掘算法应用于Web预取模型中,在预取缓存一体化的条件下实验表明具有较好的性能。  相似文献   

6.
挖掘商务网站客户的频繁访问模式,可以为提高商务网站的个性化服务水平和服务质量提供辅助决策支持。研究使用Web服务器日志数据挖掘客户频繁访问模式的方法,并依据客户访问网站序列的有序性和连续性,对Apriori算法提出四点改进。应用改进后的Apriori于Web使用挖掘中,明显提升算法的效率。  相似文献   

7.
为了提高序列模式挖掘的FLWAP-mine算法挖掘海量数据的效率和性能,基于减少数据库访问次数原则和序列模式的Apriori性质对FLWAP-mine算法进行改进,构造FLWAP-tree过程中只扫描一次访问序列数据库,对树进行剪枝删除非频繁事件。模式挖掘过程中采取投影数据库思想,只搜索当前模式的投影树,对构造的投影树判断剪枝,去除非频繁事件,进一步缩小搜索范围。实验表明,当数据量较大或支持度阈值较小时,改进的FLWAP-mine算法比FLWAP-mine算法有更好的性能。  相似文献   

8.
频繁模式的挖掘是数据挖掘领域中一个非常重要的问题,目前在高效、可扩展的频繁模式挖掘算法方面有大量研究。已有频繁模式挖掘算法大致分为两类:基于候选生成一测试策略的Apriori算法以及基于分而治之策略的频繁模式增长算法。已有的工作大多都假设待挖掘的数据是不变的。实际  相似文献   

9.
现有的大多数空间伴生模式挖掘算法采用类似Apriori生成方法,通过自底向上,逐层检验的方式挖掘频繁模式。本文提出了一种新的基于伴生模式行实例投影树CPRIP—Tree(Co—location Pattern Row_Instance Projection Tree)的挖掘算法,该算法通过实例查找方式生成伴生模式行实例以构建CPRIP—Tree,并在其基础上上直接挖掘频繁模式。最后通过模拟数据实例分析证明了该算法较基于Apriori算法具有更高的挖掘效率。  相似文献   

10.
序列模式图及其构造算法   总被引:11,自引:0,他引:11  
序列模式挖掘是数据挖掘的一个重要分支。在序列事务及有关信息处理中有着广泛的应用,目前已有许多序列模式模型及相应的挖掘算法,该文在对序列模式挖掘问题及挖掘算法进行分析的基础上。定义了一种称为序列模式图的序列模式框架。用于表示序列模式挖掘过程发现的所有序列模式,序列模式图是由离散状态的序列集到统一的图结构的桥梁,可以将序列模式挖掘结果统一到序列模式图中来,基于序列模式图进行研究可发现某些结构化的新知识,称之为后序列模式挖掘,文中还给出了序列模式图的有关性质及构造算法。  相似文献   

11.
为解决传统频繁模式挖掘算法效率不高的问题,提出了一种改进的基于FP-tree (Frequent pattern tree)的Apriori频繁模式挖掘算法.首先,在Apriori算法的连接步加入连接预处理过程;其次,对CP-tree (Compact Pattern tree)进行扩展,构造了一个新的树结构ECP-tree (Extension of Compact Pattern tree),新的树结构只需对数据库进行一次扫描就能构造出一棵紧凑的前缀树,且支持交互式挖掘与增量挖掘;然后,将改进点与APFT算法结合,用于挖掘频繁模式;最后,使用UCI数据库中两个数据集进行实验.实验结果表明:改进算法具有较高的挖掘效率,频繁模式挖掘速度显著提升.  相似文献   

12.
Apriori算法的改进   总被引:10,自引:0,他引:10  
冯兴杰  周谆 《计算机工程》2005,31(Z1):172-173
介绍关联规则挖掘的情况,在分析关联规则挖掘算法的基础上,通过对经典Apriori算法的改进,提出一种改进算法,该算法在计算候选大项集支持度所涉及的记录数目将小于事务数据库中原始的记录数目,实验证明该算法能够有效提高执行效率。  相似文献   

13.
Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果表明,该算法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。  相似文献   

14.
基于Web日志的用户访问模式挖掘   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。  相似文献   

15.
频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。  相似文献   

16.
关联规则挖掘Apriori算法的改进与实现   总被引:11,自引:2,他引:11  
陈文庆  许棠 《微机发展》2005,15(8):155-157
Apriori算法是关联规则挖掘的一个经典算法,提高Apriori算法关联规则挖掘效率的关键是减少候选集的数量。通过分析、研究该算法的基本思想,文中提出利用Hash表存储技术对该算法进行改进,通过删除项Hash表来减少生成候选集的数量,从而提高算法的效率。实验结果表明,该改进算法能有效地提高关联规则挖掘的效率。  相似文献   

17.
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性。通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题。Apriori算法是关联规则挖掘中的经典算法。对Apriori算法做了改进。借助0—1矩阵给出了计算项集的支持度计数的更快方法,同时还简化了Apriori算法中的连接和剪枝操作,从而在时间和空间上提高了Apriori算法的效率。  相似文献   

18.
根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框架,并且结合验证MR-Apriori算法的实验为基础,这对传统意义上的Apriori算法在数据挖掘过程中所出现的客观问题进行处理,从而真正意义上的完成了本文研究的基于MapReduce并行的Apriori算法的扩展性提升的目标,并且表明了元计算技术结合关联规则挖掘算法的可能性。  相似文献   

19.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.在对关联规则挖 掘中基于Apriori算法的改进算法进行深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法.最后,对频繁项集挖掘算法的发展方向进行了初步的探讨.  相似文献   

20.
针对高校课程评价,研究数据驱动的教学管理与决策问题.由某校的课程评价指标体系,确定涵盖学生、教师、同行专家和教学督导等多维度评价数据的数据结构.对采集的调查问卷数据进行清洗和转换等预处理后,构造完成供数据挖掘的数据集.考虑误导性规则抑制,使用基于差异兴趣度的改进Apriori关联规则挖掘算法,提取评价指标间的关联规则.将发现的关系模式与使用传统Apriori关联规则挖掘算法所得结果进行比较,显示本文所用改进Apriori方法能够提高知识发现的效率和准确性,对课程建设具有更强的指导作用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号