首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
首先提出一种改进的算法NONEPI++,用于挖掘事件序列上非重叠发生的频繁情节;然后将每个频繁情节表示为相应的情节隐马尔可夫模型EHMM,并通过最大期望算法计算模型的混合系数,从而生成一个基于历史数据流的混合模型;最后,基于该混合模型预测目标事件类型出现的概率。实验表明,混合EHMM模型能有效地预测数据流。  相似文献   

2.
事件序列上的频繁闭情节挖掘是一个重要课题,现有的研究基于最小发生的支持度定义和广度优先的搜索策略,不可避免地导致了情节发生的“过计数”和大量候选情节的产生问题,因此,基于最小且非重叠发生的支持度定义和深度优先的搜索策略,提出了一个事件序列上的频繁闭情节挖掘算法FCEMiner,在此基础上,利用特殊前向扩展的非闭一致性避免了冗余的闭合性检查,缩小了频繁闭情节的搜索空间.理论分析和实验评估证明FCEMiner能够有效地发现事件序列上的频繁闭情节.  相似文献   

3.
朱辉生  陈琳  倪艺洋  汪卫  施伯乐 《软件学报》2020,31(7):2169-2183
事件序列中蕴藏的频繁情节刻画了用户或系统的行为规律.现有的频繁情节挖掘算法在各自支持度定义下具有较好的挖掘效果,但在支持度定义发生变化时却很难甚至无法直接挖掘频繁情节.针对用户多变的支持度定义需求,提出了一种频繁情节挖掘算法FEM-DFS(frequent episode mining-depth first search).该算法通过单遍扫描事件序列,以深度优先搜索方式来发现频繁情节,以共享前/后缀树来存储频繁情节,以单调性、前缀单调性或后缀单调性来压缩频繁情节的搜索空间.实验评估证实了所提出算法的有效性.  相似文献   

4.
事件序列上挖掘情节规则,旨在发现情节之间的因果关系。基于非重叠的最小发生的支持度定义及深度优先搜索策略,提出在事件序列上挖掘无冗余情节规则的GFExtractor算法。利用非生成子情节的剪枝策略,淘汰非生成子情节;利用向前、向后扩展检查,淘汰非闭情节;最终在情节生成子集Gen与频繁闭情节集FCE之间产生无冗余的情节规则。实验结果证实了算法在事件序列上挖掘无冗余情节规则的有效性。  相似文献   

5.
情节规则挖掘旨在发现频繁情节之间的因果关联,已广泛应用于传感器数据处理、网络安全监控、金融证券管理、事务日志分析等众多领域.针对一个事件序列上的无冗余情节规则挖掘,提出了算法Extractor.该算法采用最小且非重叠发生的支持度定义和深度优先的搜索策略来发现频繁闭情节及其生成子,保证了频繁闭情节及其生成子的挖掘质量和挖掘效率;利用非生成子情节的Apriori性质,避免了冗余的情节生成子判断;直接由频繁闭情节及其生成子产生无冗余情节规则,提高了情节规则的生成质量和生成效率.所进行的实验证实了该情节规则抽取算法的有效性.  相似文献   

6.
为克服FCMMiner算法在挖掘频繁闭情节时存在的不足,基于最小且非重叠发生的支持度定义,提出一种事件序列上频繁闭情节挖掘算法FCM++。定义两种特殊的数据结构:频繁情节树(FET)、层头表(LH),采用广度优先搜索策略进行层扩展操作,扩展时将挖掘的频繁情节逐层压缩到FET和LH结点链中。通过动态维护FET及闭合性检查过程挖掘所有的频繁闭情节。实验结果表明,FCM++算法较FCMMiner算法有更高的挖掘效率,能有效地挖掘所有的频繁闭情节。  相似文献   

7.
频繁情节挖掘方法在入侵检测中的应用   总被引:1,自引:0,他引:1  
介绍了数据挖掘技术在入侵检测中的应用,提出了一种基于事件序列的频繁情节挖掘算法,并将该算法用于基于网络的入侵检测中。实验结果证明,与关联规则挖掘算法相比较,频繁情节挖掘算法可以有效地提高入侵检测系统的准确性,降低误报率。  相似文献   

8.
顾佩月  刘峥  李云  李涛 《计算机应用》2019,39(2):421-428
对于事件序列中的时序依赖发现,传统的频繁情节发现方法一方面使用时间窗口机制挖掘事件之间简单的关联依赖,另一方面无法有效处理事件的交叉时序关联。针对以上问题,提出了时滞情节发现的概念,在频繁情节发现的基础上,设计了一种基于相邻事件匹配集(AEM)的时滞情节发现算法。首先,引入时滞的概率统计模型进行事件序列匹配,避免预先设定时间窗口,处理可能存在的交叉关联;然后,将时滞挖掘转化为最优化问题,使用迭代的方式得到时滞情节之间的时间间隔分布;最后,利用假设检验区分串行时滞情节和并行时滞情节。理论分析与实验结果表明,与目前最新的时滞挖掘方法迭代最近事件(ICE)算法相比,基于AEM的时滞情节发现算法模拟的时滞分布与真实时滞分布的平均KL距离为0.056,缩短了20.68%。基于AEM的时滞情节发现算法通过时滞的概率统计模型衡量事件多种匹配情况的可能性,获得一对多的相邻事件匹配集,比ICE算法中的一对一匹配更加有效地模拟了实际情况。  相似文献   

9.
本文研究事件序列中频繁情节的发现问题,提出了在事件序列中发现频繁串行情节的增量式算法.如果在事件序列中发现了频繁情节及其出现频率,我们就可以生成描述或预测该序列行为的情节规则.  相似文献   

10.
本文研究了事件序列中情节的发现问题,提出了在事件序列中发现频繁串行情节的增量式算法。如果在事件序列中发现了频繁情节及其出现频率,我们就可以生成描述或预测该序列行为的情节规则。  相似文献   

11.
频繁子图挖掘是图挖掘的一个重要研究课题.gSpan算法作为一种高效的子图挖掘算法具有较好的执行效率,它通过最右扩展生成频繁子图,但不能保证每次扩展得到的均为标准编码.针对此问题本文提出了一种改进的算法CSGM,它采用ADI++存储结构,能处理更大规模的图集,同时保证每次最右扩展均生成标准编码,既避免了对非标准编码图的支持度计算,也避免了对输入编码是否为标准编码的计算.在实际数据集上运行的实验结果表明它比原算法提高了挖掘效率.  相似文献   

12.
With the wide use of EDGEs (electronic data gathering equipments) such as sensors and RFID (radio frequency identification) devices, unprecedented volumes of event streams have been generated. Mining frequent episodes within the latest time windows over event streams plays a significant role in event monitoring. It helps to generate episode rules, which can reflect the latest change, and predict future events effectively. The paper proposes how to mine MinEpi (minimal occurrence based frequent episode) within the latest time windows. The existing MinEpi mining methods are all Apriori-like, which need to scan data time after time and generate quantities of candidate episodes. This results in high time and space cost. Moreover, Apriori-like methods cannot be applied to event streams. For these problems, the paper proposes the episode matrix and frequent episode tree based mining method (EM&FET), which can generate frequent 2-episodes by constructing an episode matrix and generate higher-level frequent episodes directly by extending lower-level ones gradually, only scanning data once without candidate generation. Moreover, the paper further improves EM&FET, which enhances efficiency and saves space greatly. The experiments on different types of real data sets show the effectiveness and high efficiency of EM&FET and its improvement.  相似文献   

13.
针对现有自顶向下挖掘算法的不足,即在非频繁项目产生子集时和修剪重复产生的子集时存在冗余计算,提出一种基于定位子集的自顶向下挖掘算法,其适合于挖掘较长频繁项目集;算法按自顶向下策略用定位子集的方法产生非频繁项的子集,并有效地修剪冗余子集和减少重复计算,提高了算法的效率。实验证明,与现有的自顶向下挖掘算法相比,该算法是快速而有效的。  相似文献   

14.
关联规则挖掘是数据挖掘重要研究课题,大数据处理对关联规则挖掘算法效率提出了更高要求,而关联规则挖掘的最耗时的步骤是频繁模式挖掘。针对当前频繁模式挖掘算法效率不高的问题,结合Apriori算法和FP-growth算法,提出一种基于事务映射区间求交的频繁模式挖掘算法IITM(interval interaction and transaction mapping),只需扫描数据集两次来生成FP树,然后扫描FP树将每个项的ID映射到区间中,通过区间求交来进行模式增长。该算法解决了Apriori算法需要多次扫描数据集,FP-growth算法需要迭代地生成条件FP树来进行模式增长而带来的效率下降的问题。在真实数据集上的实验显示,在不同的支持度下IITM算法都要要优于Apriori、FP-growth以及PIETM算法。  相似文献   

15.
最大频繁项目集挖掘是多种数据挖掘应用研究的一个重要方面,最大频繁项目集的快速挖掘算法研究是当前研究的热点。传统的最大频繁项目集挖掘算法要多遍扫描数据库并产生大量的候选项目集。为此,该文提出了基于F-矩阵的最大频繁项目集快速挖掘算法FMMFIBFM,FMMFIBFM采用FP-tree的存储结构,仅须扫描数据库两遍且不产生候选频繁项目集,有效地提高了频繁项目集的挖掘效率。实验结果表明,FMMFIBFM算法是有效可行的。  相似文献   

16.
频繁子图挖掘是数据挖掘领域的一个重要问题,并且有着广泛的应用。在Hadoop平台上实现了一种基于MapReduce的高效频繁子图挖掘算法Cloud-GFSG(cloud-global frequent subgraph)。该算法基于Apriori思想,在扩展边生成新的子图时,使用已经挖掘出的k-1阶的频繁子图生成k阶的频繁子图。同时,检查是否存在待扩展生成的子图,设定生成的频繁子图表示规则,保证了频繁子图信息的唯一性。较同类算法相比,该算法在挖掘频繁子图时更具通用性,并且在扩展边时避免产生大量的复制图,从而使得算法的正确性得以保证,且运行效率显著提高。  相似文献   

17.
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标识符垂直排列,以此解决扫描整个数据集的缺陷。然后,通过FP-Growth算法构建频繁模式树,并生成频繁1-项集。接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸。最后,通过迭代过程来生成频繁 -项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。  相似文献   

18.
钱雪忠  惠亮 《计算机应用》2011,31(5):1339-1343
基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、产生大量候选最大频繁项集等问题,在分析FPMax、DMFIA算法的基础上,提出基于降维的最大频繁模式挖掘算法(BDRFI)。该算法改传统的FP-tree为数字频繁模式树DFP-tree,提高了超集检验的效率;采用的预测剪枝策略减少了挖掘的次数;基于降低项集维度的挖掘方式,减少了候选项的数目,避免了递归地产生条件频繁模式树,提高了算法的效率。实验结果表明,BDRFI的效率是同类算法的2~8倍。  相似文献   

19.
针对现有的基于垂直格式挖掘频繁项集采用正交的方式两两进行比较耗费大量时间和产生的Tid集可能很大浪费存储空间的问题,提出了一种基于三角矩阵和差集的垂直数据格式挖掘频繁项集的挖掘算法。该算法利用差集解决了对稠密数据集进行频繁项集挖掘时的Tid集可能很大的问题,并且利用一种前提方法判断是否有必要连接产生候选频繁k+1项集,减少时间的开销,而且在存储上用三角矩阵的数据结构可以进一步节省存储空间。实验结果表明,本算法大大减少挖掘频繁项集时间和空间内存的开销。  相似文献   

20.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号