首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
利用项编码方法改进apriori算法   总被引:1,自引:0,他引:1  
在众多的关联规则挖掘算法中Apriori算法是最为经典的一个,但Apriori算法有两个缺陷,即:需要扫描多次数据库以及生成大量的侯选集。文中对该算法进行改进提出了一种对项进行编码的方法,通过对项编码来减少扫描数据库次数并通过删除项来减少生成候选集的数量,从而提高算法的效率。实验结果表明,优化后的算法能有效地提高关联规则挖掘的效率。  相似文献   

2.
由于网络入侵检测系统的实时性要求,将传统的关联规则挖掘算法直接应用到入侵检测系统中,运行效率往往不能满足实际的需要.考虑到网络审计日志实时更新的特点,提出了一种基于深度优先生成树的关联规则挖掘的改进算法FIDF,它改变了候选项集的产生顺序,优先寻找最大频繁项集.该算法只需扫描一次数据库,且当事务数据库和支持度阈值改变时,无需重新扫描数据库,提高了审计日志数据关联规则挖掘的效率,确保了入侵检测系统的实时性和准确性.  相似文献   

3.
对关联规则和约束关联规则的算法进行了研究和分析,基于候选集的约束算法需要反复扫描数据库,并产生大量的候选集,在挖掘低支持度、长模式的规则时效率低下。针对算法的缺陷,该文提出了一种Conf-H-Mine算法,采用Conf-H-Struct结构存储事务集合,不产生候选集,优化了关联规则的挖掘。实验结果证明了该算法的有效性。  相似文献   

4.
FP-growth算法是关联规则挖掘中一种经典的算法,它不需要产生候选集,只需要扫描事务数据库两次来构建项目头表和FP-Tree.但该算法项节点查询比较耗时,而且要递归生成条件FP-tree,所以内存开销大.针对上述问题,文中提出了一种基于FP-growth的新的频繁模式挖掘算法MGFP-growth.其思想是:首先算法弃用项目头表,使用二维矩阵存储事务的信息,按照矩阵列进行分组,并建立parenttrace关系;最后利用存储在数组中的gourp信息可以快速的构建频繁模式树,从而进行频繁项集的挖掘.实验表明,该算法只对事务数据库扫描一次,同时利用分组将项存储,节省了内存空间,有效解决了传统算法的固有缺陷,提高了算法效率.  相似文献   

5.
FP-growth算法是一种基于FP-tree数据结构的高效的频繁模式挖掘算法,它不产生候选集。构造频繁模式树FP-tree需扫描数据库两次,在第二遍扫描中还扫描了那些仅包含了非频繁项的事务,针对此问题,在深入分析了FP-tree特性的基础上, 改进了FP-tree构造过程,同时用一种基于Hash表的辅助存储结构,节省了项目查找时间,提高了挖掘效率。  相似文献   

6.
随着物联网技术的飞速发展,数据采集手段迅速增加,对海量数据分析与处理的需求也愈加强烈。关联规则挖掘算法通过数据之间的关联分析,挖掘出数据之间的隐含关系,进而获得了大量应用。在众多的关联规则算法中,传统的Apriori算法虽然得到了大量应用,但是因为该算法产生大量的候选集,而且需要多次对数据库进行扫描,导致该算法的运行效率大大降低。为了克服Apriori算法的以上缺点,通过数据压缩的方法减少了数据库扫描次数的同时,对生成的候选集进行了多次验证,大大减少了无效候选集的数量。大量的数据挖掘实验证明提出的改进算法可以在正确挖掘数据集关联规则的同时,大大提高了算法的运行效率。  相似文献   

7.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低。矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显。该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需要的事务和项,通过矩阵相乘和查找表获得频繁的二项式集合,结合排序索引得到剩下的频繁k-项集。与矩阵关联规则算法和Apriori算法进行比较,提出的算法可以直接查找频繁项集并对数据库进行扫描,当产生频繁项集比较多或者数据库需要进行动态更新时,该算法具有较好的可行性和执行效率。实验表明,提出的矩阵排序索引算法很好地降低了内存的使用率和I/O的开销,提高了数据挖掘的效率且具有较好的可扩展性。  相似文献   

8.
对关联规则算法进行了研究和分析,基于候选集的Apriori-like算法需要反复扫描数据库,并产生大量的候选集,在挖掘低支持度、长模式的规则时效率低下。针对算法的缺陷,该文提出了一种PS算法,优化了关联规则的挖掘。实验结果证明了该算法的有效性。  相似文献   

9.
赵静 《电脑开发与应用》2012,25(7):16-17,20
A priori算法是经典的关联规则挖掘算法,它利用逐层搜索的迭代方法完成频繁模式的挖掘工作,反复进行连接剪枝操作,思路简单易操作,但也伴随着产生庞大候选集,多次扫描数据库产生巨大I/O开销的问题,提出一种改进算法:基于矩阵的关联规则挖掘算法,同A priori算法比较,该算法只需扫描一遍数据库,就可直接查找k-频繁项集,尤其是当频繁项集较高的时候,该算法具有更高的执行效率,在大数据量的情况下更具有可行性。  相似文献   

10.
基于压缩FP-树和数组技术的频繁模式挖掘算法   总被引:2,自引:0,他引:2  
FP-growth算法是目前较高效的频繁模式挖掘算法之一.它只需扫描数据库两次,而且不需要产生和测试候选集,避免了这些费时的工作,因此该算法具有较高的效率.然而,FP-growth算法需要递归地生成大量的条件FP-树,这耗费了大量的存储空间和时间.综合已有的几项优势技术,提出了一种频繁模式挖掘算法CFPmine. 一是采用了基于压缩FP-树的约束子树的挖掘方法,避免在挖掘过程中生成条件FP-树,减少内存占用;二是采用基于数组的技术,减少FP-树的遍历时间,提高算法的效率.另外,在算法中还实现了统一的内存管理.实验结果表明,CFPmine是一个高效的频繁模式挖掘算法,其性能优于Apriori,Eclat和FP-growth算法,而需要的内存却少于FP-growth算法.  相似文献   

11.
WebLog访问序列模式挖掘   总被引:4,自引:0,他引:4  
WebLog挖掘的基本思想是将数据挖掘技术应用于Web服务器的日志文件。通过WebLog的序列模式挖掘可以改善Web的信息服务。该文介绍了传统的WebLog中访问序列模式挖掘的方法,并在此基础上提出了一种对WAP-tree的改进构造方法。  相似文献   

12.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

13.
周勇  鲍钰 《计算机应用》2004,24(8):54-56
通过对Web日志信息的数据预处理和分析挖掘,辅助适量编程和算法TPARD(Target Pages Association Rule Discovery),最终实现了互联网目标页面间隐式关联规则的发现,从而可以优化网站结构,进一步提高对Web终端用户的服务质量。  相似文献   

14.
云计算环境下的数据挖掘服务模式   总被引:2,自引:0,他引:2  
丁静  杨善林  罗贺  丁帅 《计算机科学》2012,39(101):217-219,237
为了求解网络环境下分布式海量数据的分析处理、促进数据挖掘的开发集成和商业应用,提出了云计算环境下的数据挖掘解决方案,通过云环境计算能力和云计算服务模式,阐述了对数据挖掘服务问题的解决机理。云计算环境下的数据挖掘是一种网络环境下的信息资源服务模式。基于此,构建了数据挖掘服务的架构,设计了数据挖掘服务的创建流程,给出了数据挖掘服务模型的体系结构,并从生命周期的角度定义了数据挖掘的服务过程,从而形成了云计算环境下的数据挖掘服务模式。  相似文献   

15.
Web习志中包含大量的冗余信息,这给挖掘带来了不便。数据预处理就是处理这些冗余信息,经过数据净化、用户识别、会话识别、路径补全操作后得到能够用于挖掘的数据。本文详细介绍了预处理过程,同时对传统的会话识别算法加以改进。本文提到的实际系统是基于SQL语句的,能够显著缩短预处理时间。  相似文献   

16.
教育数据挖掘是一个新兴的研究方向。如何把存储在教育软件系统中的数据转变为有意义的信息,并为教育决策、优化教学过程服务,已成为大多数教育工作者所关注的内容。文中总结了当前教育数据挖掘的研究现状,介绍了一种基于Excel的简单数据挖掘方法。该方法利用模糊C均值聚类算法,对Moodle平台积累的日志数据进行分析,找出有相似学习行为的学生,为学习社区的小组划分和研究学习模式服务。实验表明,该方法能够更准确地对学生进行分类,而且操作更为简单、方便。  相似文献   

17.
文章简述了WAP体系结构以及WSP协议特点,给出了一个实现无线应用的移动终端模拟软件的体系结构,论证了使用Java技术开发移动终端模拟软件的可行性,最后提出了一种设计和实现WSP协议方法,为无线应用(WML网络浏览、彩信收发等)提供基于会话的数据传输服务,研制的模拟软件能很好地测试WAP网关的性能。  相似文献   

18.
将自组织映射神经网络(SOM)与FCM结合,利用SOM的并行计算能够减少模糊C均值算法在处理海量数据时的聚类时间,可以提高聚类算法的速度和效果,同时使用该算法对校园网Web日志进行数据挖掘,能够对用户行为进行分析,从而提出相应的方法,更好地提高服务效率和管理质量。  相似文献   

19.
近几年移动通信有了飞速发展,而无线增值业务则是移动业务增长中一个重要的增值点。鉴于目前国内运营商对WAP2.0的支持和国内SP/CP的迅速成长,以及国内增值业务市场的迅猛扩展,提出一套基于WAP2.0的通用增值业务内容管理平台框架,并对框架中的核心模块——文件模块设计和实现进行了详细描述。  相似文献   

20.
数据挖掘在日志管理中的应用   总被引:1,自引:0,他引:1  
该文阐述了日志管理中心(LMC)通用模型及实现,通过对各种日志信息进行采集、规整和汇集,生成统一的日志事件,利用事件关联规则进行分析,从而发现系统中的潜在威胁和攻击,采取实时应对措施。特别地,文中还详细介绍了两种数据挖掘算法及如何利用算法发现事件模式,自动生成事件关联规则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号