首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
最大频繁序列挖掘是数据挖掘的重要内容之一.在深入分析频繁序列特点以及已有序列挖掘算法的基础上,提出一种新的最大序列挖掘算法Huffman-MaxSeq.与传统的"候选最大频繁序列集生成——测试"思路不同,该算法采用"边生成候选序列边测试"的思想,从而有效地减少了候选序列的生成.该算法基于构造哈夫曼树(最优树)的方法,对每个序列赋予权值,按权值的大小选取序列,连接生成新的候选频繁序列,再产生最大频繁序列.  相似文献   

2.
朱天  白似雪  王柏  吴斌 《通信学报》2009,30(8):112-115
提出了一个新的基于时间段的频繁闭模式的挖掘算法,采用时间段的概念,利用频繁闭模式的特点,生成相应的时序规则.算法通过使用闭模式的性质进行剪枝优化,不生成冗余的候选序列,降低了时序规则发现的时间与空间复杂度,提高了效率.  相似文献   

3.
在日益激烈的电子对抗中,如何从纯比特流中寻找特征模式序列是分析比特流信息的核心问题。传统的模式匹配方式虽然能够解决特定模式序列的寻找,但是对于频繁序列的发现需要耗费大量的时间和空间。面向比特流的频繁模式序列挖掘算法引入了数据挖掘的思想,解决了模式匹配要多次扫描源数据的问题,利用频繁集挖掘的剪枝方法,减少数据库操作次数,提高了频繁序列的寻找效率。  相似文献   

4.
研究在图集中挖掘频繁结构模式的方法,并提出了一种发现频繁结构的新算法FSP(Frequent Structure Pattem Mining),通过在图中建立了一种新的字典顺序,并把每个图映射成唯一的最小DFS编码作为图的规范形式,从而把图转换成一个序列。基于这种字典顺序,FSP算法不需要生成候选,采用深度优先搜索策略挖掘频繁连通子图。试验结果显示,FSP算法在性能上优于以前的算法。  相似文献   

5.
基于遗传算法的时间序列中频繁结构模式发现研究   总被引:2,自引:0,他引:2  
本文提出了一个基于小生境遗传算法和模式缓存的时间序列中频繁结构模式的发现算法,该算法具有轻便、灵活、可扩放性好的特点,可根据实际情况合理配置计算时间和所占用的内存资源,并可实现挖掘结果的实时动态更新输出,在实际时间序列数据上的实验证明了该算法的有效性。  相似文献   

6.
挖掘最大频繁项目集是数据挖掘中的重要研究课题。目前已经提出的最大频繁项目集挖掘算法大多是基于单机环境的,在分布环境中挖掘最大频繁项目集的算法尚不多见。文章提出了一种基于分布数据库的并行挖掘最大频繁项目集的算法。该算法尽可能地让每个处理器独立地挖掘,采用频繁模式树(FP—tree)作为数据结构,可方便地从各局部FP-tree中挖掘局部最大频繁项目集及判断各项目集的支持度。采用传递候选最大频繁项目集的方法。实验表明该算法是有效的并行算法。  相似文献   

7.
现有信任网络研究大多侧重于信任的推理及聚合计算,缺乏对实体重要性及其关联性分析,为此该文提出一种多维信任序列模式(Multi-dimensional Trust Sequential Patterns, MTSP)挖掘算法。该算法包括频繁信任序列挖掘和多维模式筛选两个处理过程,综合考虑信任强度、路径长度和实体可信度等多维度因素,有效地挖掘出信任网络中的频繁多维信任序列所包含的重要实体及其关联结构。仿真实验表明该文所提MTSP算法的挖掘结果全面、准确地反映了信任网络中重要信任实体关联性及其序列结构特征。  相似文献   

8.
一种不产生候选集的最大频繁集快速挖掘算法   总被引:2,自引:2,他引:0  
发现最大频繁(项目)集是关联规则挖掘中的重要问题。提出一个基于频繁模式树FP—Tree(Frequent Pattern Tree)的快速发现最大频繁项目集算法MFP—growth(Maximum Frequent Pattern growth),其发现过程中不需要产生候选(项目)集,从而提高了挖掘效率。由实验结果表明,此算法在发现最大频繁项目集方面具有很好的性能。  相似文献   

9.
提出了一种基于频繁子树挖掘策略说我DNA重复序列识别方法.绕开了传统的序列比对方式,将序列按照后缀树结构方式进行组织,再对后缀树形式做了约减改进,使其更加适合子树挖掘操作,最后利用频繁子树挖掘的方法对其进行学习.算法可以直接识别出满足设定阈值的重复序列,避免了由短重复体拼接所造成的时间浪费,设计的"二次识别技术"使得算法对模糊重复体也有着很好的识别效果,提高了识别完整度.实验证明:算法在识别效率性能方面较升,尤其当识别较长重复体时,优势体现的更为明显,同时在识别完整度方面也高度可比.  相似文献   

10.
提出了一种基于布尔矩阵的最大频繁项集挖掘算法,通过将FP-tree映射成布尔矩阵和权值表,运用布尔逻辑运算进行矩阵投影操作得到最大频繁项集,算法在挖掘过程中不用生成最大频繁候选项集,从而大大提高了算法的时间效率和空间可伸缩性。  相似文献   

11.
频繁项集挖掘算法是数据挖掘的主要研究方向。目前主流的频繁项集挖掘算法有:产生候选频繁项集和不产生候选频繁项集两种,分别是Apriori算法、FP_growth算法。这两种算法各有优缺点。本文在分析现有算法的基础上,充分利用FP_tree信息压缩的优点,设计出一种产生候选项集的最大频繁项集挖掘算法。该算法首先构造一棵单向FP_tree,再利用最大频繁项集特性对候选项集进行剪枝,不需要扫描数据库计算候选项集的支持数。仿真实验表明,与现有算法相比,该算法的时、空效率都有巨大提高。  相似文献   

12.
频繁模式树算法是一种优秀的关联规则挖掘算法.频繁模式树算法的挖掘对象是水平数据分布的数据库,现实中有大量数据垂直分布的数据库不能直接应用频繁模式树算法进行挖掘.本文针对垂直数据分布的数据库,提出一种有效的频繁模式树生长算法,只需两次数据库扫描,即可生成相应的频繁模式树.  相似文献   

13.
针对当前网络告警数据误报率过高以及新型网络攻击行为难以预测的问题,本文提出基于告警事件特征的网络攻击行为预测方法:首先通过FP_tree树挖掘告警事件属性间的强关联规则,如果挖掘得到的频繁项与正常网络的访问事件属性频繁项相关,则剔除虚假告警事件;接着,采用序列模式算法挖掘正确告警事件的序列关系,如果该序列与某种网络攻击行为序列相关,则形成网络攻击的事件组合规则,实现网络攻击行为的有效预警。通过相关的实验过程和结果分析,表明本文提出的方法能够有效、实时预警网络的攻击行为,具有一定的应用性和扩展性。  相似文献   

14.
关联规则的开采是数据挖掘中的一个重要问题,其核心是频繁模式挖掘。频繁模式挖掘算法的高效率性近年来是许多学者研究的方向。首先对关联规则挖掘问题进行了描述,其次对一种基于项目可辨识向量及其“与”运算设计的频繁项集快速挖掘算法SLIG进行了分析,最后利用二元关系矩阵及其项之间的二元关系数目,缩减候选频繁k项集的产生,提出了改进算法SLIG*,提高了SLIG算法的效率。  相似文献   

15.
针对基于DPI的网络流量识别中的指纹特征提取困难问题,文章提出了改进的基于Prefix Span算法的连续序列模式挖掘算法来提取应用层指纹特征。首先,改进的算法在挖掘应用层特征时加入了属性约束。其次,在进行频繁序列投影前,又引入剪枝策略。最后,通过实验表明该改进的算法在挖掘应用层指纹特征方面大大提高了效率,提取出来的特征可有效地应用于网络流量识别技术中。  相似文献   

16.
加权最大频繁项目集挖掘算法   总被引:2,自引:0,他引:2  
关联规则是数据挖掘领域的一个重要分支,而发现最大频繁项目集是关联规则挖掘中的重要问题.最大频繁项目集挖掘是在数据库中各属性之间是平等的情况下进行的,但现实中并非如此.频繁模式树(Frequent Pattern Tree,FP-Tree)已不能满足要求.为此提出了一个有效的基于加权FP-Tree的加权最大频繁项目集挖掘算法,其挖掘过程中不需要产生候选项目集.并通过实例说明了此算法的挖掘过程.实验结果表明此算法是有效的并且有较好的扩展性.  相似文献   

17.
《信息技术》2016,(11):118-120
近年来,序列模式挖掘或序列挖掘已经成为数据挖掘的一个重要方面。序列模式挖掘是指从序列数据库发现相对时间或者其他顺序出现的频繁子序列。文中首先介绍了序列模式分析的基本概念,然后对序列模式的两种经典算法(GSP算法和Perfix Span算法)进行了描述,之后对这两种算法进行了分析和比较,分析比较的结果对序列模式挖掘应用到Web日志挖掘具有一定的参考价值。下一步的工作是进一步探讨算法的优化问题,主要研究如何缩小搜素空间,更好的提高算法效率。  相似文献   

18.
数据挖掘中的关联原则挖掘和序列模式挖掘常用于网络入侵检测问题。在本文中,我们试图运用模糊集理论将序列挖掘算法进行改进,提出一种模糊序列模式用于网络异常检测,并用初步的实验对该算法进行证明。  相似文献   

19.
如何提取和选择时间序列的特征是时间序列分类领域两个重要的问题。该文提出MNOE(Mining Non- Overlap Episode)算法计算时间序列中的非重叠频繁模式,并将其作为时间序列特征。基于这些非重叠频繁模式,该文提出EGMAMC(Episode Generated Mixed memory Aggregation Markov Chain)模型描述时间序列。根据似然比检验原理,从理论上推导出频繁模式在时间序列中出现的次数和EGMAMC模型是否能显著描述时间序列之间的关系;根据信息增益定义,选择能显著描述时间序列的频繁模式作为时间序列特征输入分类模型。在UCI (University of California Irvine)公共数据集和实际智能楼宇数据集上的实验表明,选择频繁模式作为特征进行分类的准确率、召回率和F-Measure均优于不选择频繁模式作为特征的分类结果。高效的计算和有效的选择非重叠频繁模式作为时间序列特征有助于提高时间序列分类模型的各项评价指标。  相似文献   

20.
本文围绕图集中的频繁子图挖掘算法、单图中的频繁子图挖掘算法两个方面展开讨论,对概率频繁模式挖掘算法进行了研究以及综述,并在此基础上提出了一些笔者自己的见解,希望能够对今后的概率频率模式挖掘算法的研究提供一些理论建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号