首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
数据流的无限性、连续性和速度快等特点,使得挖掘出所有准确的数据流频繁项通常是不可能的.算法的空间复杂度和时间复杂度通常是评价频繁项挖掘算法优劣的两个主要度量.通过引入局部性原理改进数据流近似频繁项的挖掘算法,该算法的空间复杂性为O(1/ε),数据流每个数据项的最坏处理时间是O(1/ε),其最好处理时间是O(1),输出结果的频率值误差为∑_(i=2)^j(1-μi)×ki。  相似文献   

2.
基于双空间搜索的频繁项挖掘方法   总被引:6,自引:1,他引:6  
1 引言 1998年Roberto J.和Bayardo Jr.利用自底向上搜索和项目集排序的方法建立了一种挖掘长型频繁项的Max-Miner算法;Lin D.和 Z.Kedem提出了一种双向钳形搜索Pincer-Search方法,利用自底向上搜索产生的非频繁项集来约束和修剪自顶向下方向的最大侯选频繁项集,候选频繁项集来自于Apriori方法。这两种方法虽然细节有所不同,但修剪最大频繁项的思想类似。假设{{1,2,3,4,5,6}}是最大候选频繁项MFCS(maximum-frequent-candidate-set),{1,6}和{3,6}是新发现的非频繁项集,对MFCS考虑{1,6}得{{1,2,3,4,5},{2,3,4,5,6}}。再用{3,6}更新这个MFCS:由于{3,6}是{2,  相似文献   

3.
对现有的基于MapReduce的并行频繁项集挖掘算法进行了研究, 提出一种基于后缀项表的并行闭频繁项集挖掘算法, 通过后缀项表的引入及以闭频繁项集挖掘的形式, 减少组分间的数据传送量, 提高挖掘效率。实验表明, 该算法可以有效缩短平均挖掘时间, 对于高维大数据具有较好的性能。  相似文献   

4.
通过综述目前主流的基于流量模式的识别方法在基于人工经验和基于机器学习两方面的研究成果,分析了各种方法经验上的或理论上的合理性。最后分析了目前研究中存在的不足,对后续研究工作具有参考意义。  相似文献   

5.
频繁项集的挖掘是关联规则挖掘中一个关键的问题,典型的关联规则挖掘算法都是以数据库的多次扫描来实现的,而且不能即时反映数据库的变化,且其频繁项集的产生都只考虑了项目在数据库中出现的频度而没有考虑项目的重要性。本文提出了一种基于频繁链表的完全加权项频繁集的挖掘算法,该算法不但能动态反映数据库的变化,而且在频繁集的挖掘中只需扫描一次数据库,并根据项目的重要性程度对项目赋予了一定的权值,用以挖掘人们更感兴趣的关联规则。  相似文献   

6.
P2P业务流量在对互联网应用起巨大推动作用的同时,也带来了因资源过度占用而引起的网络拥塞以及安全隐患等问题,妨碍了正常的网络业务的开展.为了保证网络能正常有序的运行,有必要对P2P流量进行控制.但是,随着动态端口和数据加密技术的出现,传统的流量识别方法面临着巨大的挑战.简要介绍了三种主要的流量识别技术,并且比较了它们的优缺点.着重对基于流特征的流量识别方法效率低下的原因做了详细的分析,分别指出了引起误报和漏报的原因,并且给出了相应的解决方案.实验证明:文中方法能够有效提高P2P流量识别效率.  相似文献   

7.
提出新的数据结构ESBF(Extensible and Scalable Bloom Filter)-可扩展的Bloom Filter.并提出基于ESBF的数据流中频繁项近似挖掘算法,该算法在保证较高精度的同时,实现比同类算法具有更好的时间效率且在一般情况下具更好的空间效率,并证明只需ln(-M/lnρ)·e/ε·1/(ε·M)个计数器就能保证满足用户规定的误差ε及可信度ρ要求.  相似文献   

8.
从数学规划的角度重新表述了单维布尔型频繁项挖掘问题,利用新定义的加法和数乘及范数运算将其归结为一个非线性0-1规划问题,并利用遗传算法进行求解。在分析频繁项挖掘问题困难原因的基础上,提出了利用原数据库记录确定初始种群的方法,并在IBM公布的ticeval2000数据库上进行了数值实验。实际计算结果表明,该方法一般在几代内即可找到一批长频繁模式。  相似文献   

9.
基于流量分析的 P2P 协议识别方法的研究   总被引:1,自引:0,他引:1  
鉴于目前国内互联网现状,基于各种P2P协议的网络流量飞速增长并占据了大部分的网络带宽。各级运营商以及企业网络管理部门要想对基于各种P2P协议的网络流量进行有效管理、提升用户体验,就一定要攻克其瓶颈技术——P2P协议的识别。本文主要对一种新的协议识别思路——通过网络流量信息识别P2P协议的方法进行了研究。  相似文献   

10.
针对新型P2P业务采用净荷加密和伪装端口等方法来逃避检测的问题,提出了一种基于决策树的P2P流量识别方法.该方法将决策树方法应用于网络流量识别领域,以适应网络流量的识别要求.决策树方法通过利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.实验结果验证了C4.5决策树算法相比较Na(i)ve Bayes、Bayes Network算法,处理相对简单且计算量不大,具有较高的数据处理效率和分类精度,能够提高网络流量分类精度,更适用于P2P流量识别.  相似文献   

11.
基于网络距离度量和分簇的P2P流量控制   总被引:1,自引:1,他引:0       下载免费PDF全文
李伟  温立 《计算机工程》2009,35(7):93-95
针对BitTorrent(BT)系统中对等连接消耗大量骨干网络带宽导致网络拥塞的问题,提出基于网络距离度量和网络分簇的节点分配策略。仿真实验表明,在不影响BT客户端下载性能的情况下,该分配策略能够将更多的数据流量限制在网络簇内部,提高数据流量的局部性,有效地减少BT系统对骨干网络带宽的消耗。  相似文献   

12.
邬书跃  余杰  樊晓平 《计算机工程》2012,38(16):182-184
针对点对点(P2P)用户习惯、运行环境的异构性,提出P2P流量识别的双层模型。该模型由单流内部流量特征的贝叶斯网络识别算法与多流之间行为特征的支持向量机识别算法组成。实验结果表明,相对于统计特征识别方法,该模型检测准确度提高5.4%,且对于不同应用场景具有较好的稳定性。  相似文献   

13.
采用频繁项目链表变换的频繁项目集挖掘算法   总被引:1,自引:0,他引:1  
频繁项目集的产生是关联规则挖掘的关键问题,经典的关联规则挖掘算法是通过对事务数据库的多次扫描实现的.最新的研究已经开始探索合适的数据结构以支持进行极少次数的事务数据库的扫描,进而减少关联规则挖掘过程中巨大的I/O开销以获得更高的效率.文中利用频繁项目链表的数据结构,给出了一种仅需扫描两次事务数据库的关联规则挖掘算法 ,称为FILLT算法.该算法采取分而治之策略,对频繁项目链表实施分割、变换来进行关联规则挖掘.文中最后对这一算法的效率进行了理论分析和实验验证.  相似文献   

14.
邢玲  郑维玮  马卫东 《计算机工程》2012,38(21):119-122
为实现快速有效的P2P流量识别,提出一种基于节点连接度的识别方法。根据不同P2P流量的连接度特点,通过实验分析得到相关的流量属性,对属性进行关联,由此区分网络中的P2P流量及非P2P流量,并通过分析P2P下载与P2P流媒体的行为特性,证明P2P 下载的流量属性具有相似性,与P2P流媒体的流量属性相差较大。仿真实验结果证明,该方法具有较好的实时性和准确性。  相似文献   

15.
针对频繁项集挖掘时间与空间效率低的问题,提出一种基于前缀树的高效频繁项集挖掘算法,通过对事务集进行预处理,创建索引表并分配索引编号,保证前缀树中事务顺序的一致性,根据索引编号等信息创建紧凑的前缀树,采用自底向上的挖掘与投影的方式挖掘出频繁项集。实验结果表明,该算法挖掘效率高、占用空间少。  相似文献   

16.
基于特征进程的P2P流量识别   总被引:2,自引:0,他引:2       下载免费PDF全文
张文  沈磊 《计算机工程》2008,34(15):120-122
为了解决P2P流量识别中用户使用端口跳跃、数据加密等方法带来的识别难题,通过对主机进程与网络流量相关性的研究,提出一种基于特征进程的P2P流量识别系统,在客户端通过进程匹配完成P2P流量的识别,并且具有发现未知P2P进程的能力。实验表明,该系统对于P2P流量具有较高的识别能力。  相似文献   

17.
基于FP-Tree有效挖掘最大频繁项集   总被引:36,自引:2,他引:36       下载免费PDF全文
最大频繁项集的挖掘过程中,在最小支持度较小的情况下,超集检测是算法的主要耗时操作.提出了最大频繁项集挖掘算法FPMFI(frequent pattern tree for maximal frequent item set)使用基于投影进行超集检测的机制,有效地缩减了超集检测的时间.另外,算法FPMFI通过删除FP子树(conditional frequent pattern tree)的冗余信息,有效地压缩了FP子树的规模,减少了遍历的开销.分析表明,算法FPMFI具有优越性.实验比较说明,在最小支持度较小时,算法FPMFI的性能优于同类算法1倍以上.  相似文献   

18.
基于频繁项集挖掘的贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是一种简单而且高效的分类学习算法,但是它所要求的属性独立性假设在真实世界应用中经常难以满足.为了放松属性独立性约束以提高朴素贝叶斯分类器的泛化能力,研究人员进行了大量的工作.提出了一种基于频繁项集挖掘技术的贝叶斯分类学习算法FISC(frequent item sets classifier).在训练阶段,FISC找到所有频繁项集并计算可能用到的概率估值.在测试阶段,FISC对于测试样本包含的每个项集构造一个分类器,通过集成这些分类器来给出预测结果.实验结果验证了FISC的有效性.  相似文献   

19.
样条权函数神经网络是一种新兴的神经网络,克服了很多传统神经网络(如BP、RBF)的缺点:比如局部极小、收敛速度慢等。它具有拓扑结构简单,精确记忆训练过的样本,反映样本的信息特征,求得全局最小值等优点。基于这些优点,文中提出了一种基于样条权函数神经网络P2P流量识别方法。通过提取P2P流量特征,运用样条权函数神经网络结构对P2P流识别。Matlab仿真和模拟实验结果表明了这种方案的可行性,与传统神经网络相比,样条权函数神经网络在时间效率上具有明显优势。  相似文献   

20.
P2P 流量识别   总被引:5,自引:0,他引:5  
鲁刚  张宏莉  叶麟 《软件学报》2011,22(6):1281-1298
P2P流量的迅猛增长加剧了网络拥塞状况,P2P流量识别为网络管理提供了基本的技术支持.首先介绍了P2P流量的类别及流量识别面临的主要困难,然后综述了P2P流量识别的主要技术及研究进展,最后给出下一步的主要研究方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号