首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
李阳  李青  张霞 《计算机应用》2017,37(4):954-959
针对缺少会话信息的离散序列报文,提出一种基于离散序列报文的协议格式(SPMbFSC)特征自动提取算法。SPMbFSC在对离散序列报文进行聚类的基础上,通过改进的频繁模式挖掘算法提取出协议关键字,进一步对协议关键字进行选择,筛选出协议格式特征。仿真结果表明,SPMbFSC在以单个报文为颗粒度的识别中对FTP、HTTP等六种协议的识别率均能达到95%以上,在以会话为颗粒度的识别中识别率可达90%。同等实验条件下性能优于自适应特征(AdapSig)提取方法。实验结果表明SPMbFSC不依赖会话数据的完整性,更符合实际应用中由于接收条件限制导致会话信息不完整的情形。  相似文献   

2.
介绍了提取网络协议特征的研究意义和传统方法,提出了自动提取协议特征的方法,提取流量中的频繁字符串作为协议的特征字符串。设计了实验分析方法,并阐述和分析了实验结果。实验结果表明,提出的方法能较准确地自动提取网络流量中的协议特征字符串。  相似文献   

3.
黄亮  赵泽茂  梁兴开 《计算机应用》2012,32(6):1662-1665
Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。为了更好地从网页中挖掘数据,提出了一种新的Web数据挖掘算法,把树编辑距离转化为字符串编辑距离的计算,改进字符串编辑距离算法,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,基于编辑距离的Web数据挖掘算法不仅能提取具有根节点及上面几层相同的网页的数据,对具有底层节点相同的网页也是有效的。  相似文献   

4.
现有大部分微阵列数据中频繁闭合项集的挖掘需要事先给定最小支持度,但在实际应用中该最小支持度很难确定。针对该问题,提出top-k频繁闭合项集挖掘算法,基于自顶向下宽度优先搜索策略挖掘项集长度不小于min_l的top-k频繁闭合项集,并对搜索空间进行有效修剪,从而提高搜索速度。实验结果表明,该算法的时间性能在多数情况下优于CARPENTER算法。  相似文献   

5.
在比特流未知协议识别过程中,针对如何将得到的多协议数据帧分为单协议数据帧这一问题,提出了一种改进的凝聚型层次聚类算法。该算法以传统的凝聚型层次聚类算法思想为基础,结合比特流数据帧的特征,定义了数据帧之间及类簇之间的相似度,采用边聚类边提取符合要求类簇的方式,能快速有效地对数据帧进行聚类;并且该算法能自动地确定聚类的个数,所得的类簇含有相似度评价指标。利用林肯实验室公布的数据集进行测试,说明该算法能以较高的正确率对协议数据帧进行聚类。  相似文献   

6.
针对现有自顶向下挖掘算法的不足,即在非频繁项目产生子集时和修剪重复产生的子集时存在冗余计算,提出一种基于定位子集的自顶向下挖掘算法,其适合于挖掘较长频繁项目集;算法按自顶向下策略用定位子集的方法产生非频繁项的子集,并有效地修剪冗余子集和减少重复计算,提高了算法的效率。实验证明,与现有的自顶向下挖掘算法相比,该算法是快速而有效的。  相似文献   

7.
基于序列模式挖掘的误用入侵检测系统框架研究   总被引:5,自引:0,他引:5       下载免费PDF全文
本文提出一种基于序列模式挖掘的误用入侵检测系统框架,克服了Wenke Lee在网络层使用频繁片断算法对入侵行为进行统计分析的局限性。该系统针对应用层攻击,能够识别攻击行为的先后次序,是一种在协议分析基础上的行为分析技术。实验表明,该系统能更准确地描述攻击,可以检测出只包含一次特征的攻击。  相似文献   

8.
研究微阵列数据中挖掘Top-k频繁闭合项集问题,并设计挖掘算法ZDtop。算法采用ZBDD结构压缩存储数据集,使用自顶向下深度优先搜索策略挖掘项集长度不小于给定值min_l的Top-k频繁闭合项集,并对搜索空间进行有效修剪。通过实例证明该算法是正确有效的。  相似文献   

9.
应用层协议识别是指从承载应用层协议数据的网络流量中提取出可以标识应用层协议的关键特征,并以这些关键特征为基础,将同种类型的应用层协议数据划分在一起。针对现有网络流量识别方法对未知应用层协议识别率低的问题,提出了一种自适应聚类的未知应用层协议识别方法。该方法以传统的AGNES层次聚类算法为基础,依据网络流应用层协议数据的负载特征,基于相似度对应用层协议进行聚类。方法将聚类算法中相似度计算划分为聚类前应用层协议数据间的相似度计算和聚类中簇间的相似度计算两部分,避免了重复性地计算应用层协议数据间的相似度,提升了算法的聚类效率。实验结果表明所提出的方法能够高效准确地对未知协议的网络流量进行识别。  相似文献   

10.
研究微阵列数据中挖掘Top—k频繁闭合项集问题,并设计挖掘算法ZDtoP。算法采用ZBDD结构压缩存储数据集,使用自顶向下深度优先搜索策略挖掘项集长度不小于给定值min_l的Top—k频繁闭合项集,并对搜索空间进行有效修剪。通过实例证明该算法是正确有效的。  相似文献   

11.
目前,在保护频繁子图数据的研究领域中,关于保护带有边权重的子图数据还没有被研究.针对这一问题,在频繁有权子图的挖掘过程中,采用差分隐私技术兼顾地保护频繁子图的边权重和结构的隐私,提出Diff-Wfsm算法.通过扩展已有挖掘算法,将图模型转换成编码形式,并将权重值考虑到编码中.为了更好地保护结构的隐私和提高数据效用性,在挖掘过程中同时采用差分隐私的Laplace机制和指数机制.实验在多个真实数据集中进行,结果表明该算法能在挖掘过程中达到隐私保护的效果,并可以保证输出的频繁有权子图具有较高的数据效用性.  相似文献   

12.
王晓鹏 《计算机仿真》2020,37(1):234-238
对区间值属性数据集进行挖掘,可以有效分析出数据之间的关系。针对现有数据挖掘方法未对大规模数据进行聚类,导致挖掘过程占据内存大,挖掘精度低的问题,提出了一种新的区间值属性数据集挖掘算法。对问题定义、数据准备、数据提取、模式预测和数据聚类等模块进行详细分析,完成区间值属性数据聚类。根据聚类结果,将区间值属性数据分成多个数据集,挑选出能够支持最小支持度的项目集,将这些项目集作为频繁项集,进而提取出数据集之间的关联规则,将关联规则融入数据计算步骤,完成数据挖掘。为验证算法效果,进行仿真,结果表明,相较于传统挖掘算法,所提挖掘算法占用容量更小,挖掘精度更高。  相似文献   

13.
空间拓扑关联的双向挖掘研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对现有挖掘算法不能快速地提取空间拓扑关联,提出一种空间拓扑关联的双向挖掘算法,其适合在海量空间数据中挖掘空间拓扑关联规则;该算法用二进制数表示空间拓扑元,并用其位运算,按自顶向下和自底向上两种方式计算产生候选频繁项,实现双向搜索空间拓扑关联规则;算法在计算支持数时还用数字式空间事务的特性减少被扫描的事务数,达到提高挖掘效率的目的。实验结果表明在空间数据中挖掘空间拓扑关联规则时,该算法比现有算法更快速更有效。  相似文献   

14.
提出一种基于按序产生子集的关联规则挖掘算法,适合于挖掘长频繁项目集;算法基于自顶向下搜索策略,采用按序产生子集的方法生成频繁候选项,在挖掘过程中减少了冗余候选项和重复计算,提高了挖掘效率。通过模拟实验数据与现有经典挖掘算法进行性能测试比较,结果表明当它挖掘长频繁项目集时不仅快速而且有效。  相似文献   

15.
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标识符垂直排列,以此解决扫描整个数据集的缺陷。然后,通过FP-Growth算法构建频繁模式树,并生成频繁1-项集。接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸。最后,通过迭代过程来生成频繁 -项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。  相似文献   

16.
针对大数据环境下并行MRPrePost频繁项集挖掘算法中存在计算节点负载不均衡,N-list合并效率低以及冗余搜索等问题,提出了基于N-list结构的混合并行频繁项集挖掘算法HP-FIMBN。首先,设计负载量估计函数(LE)来计算出频繁1项集F-list中每一项的负载量,同时提出基于贪心策略的分组方法(GM-GS)将F-list中的每一项根据其负载量进行均匀分组,既解决了数据划分中计算节点负载不均衡的问题,又降低了集群中各节点上子PPC-Tree树的规模;其次,提出预先放弃策略(EAS),该策略不仅能有效避免合并过程中的无效计算,而且不需要遍历初始N-list结构就能得到最终的N-list,极大地提高了N-list结构的合并效率;最后,采用集合枚举树作为搜索空间,并提出超集等价剪枝策略(SES)来避免挖掘过程中的冗余搜索,生成最终的挖掘结果。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。  相似文献   

17.
洪月华 《计算机科学》2013,40(2):58-60,94
研究无线传感器网络中数据流频繁项集挖掘问题。针对集中式的静态数据流频繁项集挖掘方法不能在传感器网络中直接使用这一特点,提出基于传感器网络的分布式数据流的频繁项集挖掘算法FIMVS。该算法基于FPtree快速挖掘出传感器节点上单一数据流的局部频繁项集,然后通过路由将其在无线传感器网络里逐层上传合并,在Sink节点上汇聚后,采用自顶向下的高效剪枝策略挖掘出全局频繁项集。实验结果表明,该算法能有效地大幅度减少候选项集,降低无线传感器网络中的通信量,并有较高的时间和空间效率。  相似文献   

18.
朱美玲  刘晨  王雄斌  韩燕波 《软件学报》2017,28(6):1498-1515
针对伴随车辆检测这一新兴的智能交通应用,在一种特殊的流式时空大数据-车牌识别流式大数据下,重新定义Platoon伴随模式,提出PlatoonFinder算法,即时地在车牌识别数据流上挖掘Platoon伴随模式.本文的主要贡献包括:第一,将Platoon伴随模式发现问题映射为数据流上的带有时空约束的频繁序列挖掘问题.与传统频繁序列挖掘算法仅考虑序列元素之间位置关系不同,本文算法能够在频繁序列挖掘的过程中有效处理序列元素之间复杂的时空约束关系;第二,本文算法融入了伪投影等性能优化技术,针对数据流的特点进行了性能优化,能够有效应对车牌识别流式大数据的速率和规模,从而实现车辆Platoon伴随模式的即时发现.通过在真实车牌识别数据集上的实验分析表明,PlatoonFinder算法的平均延时显著低于经典的Aprior和PrefixSpan等频繁模式挖掘算法,也低于真实情况下交通摄像头的车牌识别最小时间间隔.因此,本文所提出的算法可以有效的发现伴随车辆组及其移动模式.  相似文献   

19.
为了分离复杂无线网络环境下获取到的二进制数据帧,为后续协议逆向解析提供前提条件,实现了对复杂协议簇协议的聚类系统.首先使用AC算法挖掘出二进制数据帧中的频繁序列特征;然后创新地使用了Apriori算法搜索分析这些特征的关联关系,并且结合二进制流数据帧的特点对结果进行了四步剪枝处理;最后利用筛选出的特征通过改进的K-means算法进行聚类.实验表明,该系统可以对二进制协议数据帧的聚类起到很好的效果,同时对存在TYPE字段的多层协议簇,还能进一步区分出多种协议间的层次关系.  相似文献   

20.
不确定数据集中频繁模式挖掘的研究热点之一是挖掘算法的时空效率的提高,特别在目前数据量越来越大的情况下,实际应用对挖掘算法效率的要求也更高。针对动态不确定数据流中的频繁模式挖掘模型,在算法AT-Mine的基础上,给出一个基于MapReduce的并行挖掘算法。该算法需要两次MapReduce就可以从一个滑动窗口中挖掘出所有的频繁模式。实验中,多数情况下通过一次MapReduce就可以挖掘到全部频繁项集,并且能按数据量大小均匀地把数据分配到各个节点上。实验验证了该算法的时间效率能提高1个数量级。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号