共查询到20条相似文献,搜索用时 93 毫秒
1.
数据流的无限性、连续性和速度快等特点,使得挖掘出所有准确的数据流频繁项通常是不可能的.算法的空间复杂度和时间复杂度通常是评价频繁项挖掘算法优劣的两个主要度量.通过引入局部性原理改进数据流近似频繁项的挖掘算法,该算法的空间复杂性为O(1/ε),数据流每个数据项的最坏处理时间是O(1/ε),其最好处理时间是O(1),输出结果的频率值误差为∑_(i=2)^j(1-μi)×ki。 相似文献
2.
基于双空间搜索的频繁项挖掘方法 总被引:6,自引:1,他引:6
1 引言 1998年Roberto J.和Bayardo Jr.利用自底向上搜索和项目集排序的方法建立了一种挖掘长型频繁项的Max-Miner算法;Lin D.和 Z.Kedem提出了一种双向钳形搜索Pincer-Search方法,利用自底向上搜索产生的非频繁项集来约束和修剪自顶向下方向的最大侯选频繁项集,候选频繁项集来自于Apriori方法。这两种方法虽然细节有所不同,但修剪最大频繁项的思想类似。假设{{1,2,3,4,5,6}}是最大候选频繁项MFCS(maximum-frequent-candidate-set),{1,6}和{3,6}是新发现的非频繁项集,对MFCS考虑{1,6}得{{1,2,3,4,5},{2,3,4,5,6}}。再用{3,6}更新这个MFCS:由于{3,6}是{2, 相似文献
3.
对现有的基于MapReduce的并行频繁项集挖掘算法进行了研究, 提出一种基于后缀项表的并行闭频繁项集挖掘算法, 通过后缀项表的引入及以闭频繁项集挖掘的形式, 减少组分间的数据传送量, 提高挖掘效率。实验表明, 该算法可以有效缩短平均挖掘时间, 对于高维大数据具有较好的性能。 相似文献
4.
5.
频繁项集的挖掘是关联规则挖掘中一个关键的问题,典型的关联规则挖掘算法都是以数据库的多次扫描来实现的,而且不能即时反映数据库的变化,且其频繁项集的产生都只考虑了项目在数据库中出现的频度而没有考虑项目的重要性。本文提出了一种基于频繁链表的完全加权项频繁集的挖掘算法,该算法不但能动态反映数据库的变化,而且在频繁集的挖掘中只需扫描一次数据库,并根据项目的重要性程度对项目赋予了一定的权值,用以挖掘人们更感兴趣的关联规则。 相似文献
6.
P2P业务流量在对互联网应用起巨大推动作用的同时,也带来了因资源过度占用而引起的网络拥塞以及安全隐患等问题,妨碍了正常的网络业务的开展.为了保证网络能正常有序的运行,有必要对P2P流量进行控制.但是,随着动态端口和数据加密技术的出现,传统的流量识别方法面临着巨大的挑战.简要介绍了三种主要的流量识别技术,并且比较了它们的优缺点.着重对基于流特征的流量识别方法效率低下的原因做了详细的分析,分别指出了引起误报和漏报的原因,并且给出了相应的解决方案.实验证明:文中方法能够有效提高P2P流量识别效率. 相似文献
7.
提出新的数据结构ESBF(Extensible and Scalable Bloom Filter)-可扩展的Bloom Filter.并提出基于ESBF的数据流中频繁项近似挖掘算法,该算法在保证较高精度的同时,实现比同类算法具有更好的时间效率且在一般情况下具更好的空间效率,并证明只需ln(-M/lnρ)·e/ε·1/(ε·M)个计数器就能保证满足用户规定的误差ε及可信度ρ要求. 相似文献
8.
张军 《计算机工程与应用》2008,44(12):161-165
从数学规划的角度重新表述了单维布尔型频繁项挖掘问题,利用新定义的加法和数乘及范数运算将其归结为一个非线性0-1规划问题,并利用遗传算法进行求解。在分析频繁项挖掘问题困难原因的基础上,提出了利用原数据库记录确定初始种群的方法,并在IBM公布的ticeval2000数据库上进行了数值实验。实际计算结果表明,该方法一般在几代内即可找到一批长频繁模式。 相似文献
9.
10.
李晟锴 《计算机技术与发展》2011,21(12)
针对新型P2P业务采用净荷加密和伪装端口等方法来逃避检测的问题,提出了一种基于决策树的P2P流量识别方法.该方法将决策树方法应用于网络流量识别领域,以适应网络流量的识别要求.决策树方法通过利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.实验结果验证了C4.5决策树算法相比较Na(i)ve Bayes、Bayes Network算法,处理相对简单且计算量不大,具有较高的数据处理效率和分类精度,能够提高网络流量分类精度,更适用于P2P流量识别. 相似文献
11.
12.
13.
采用频繁项目链表变换的频繁项目集挖掘算法 总被引:1,自引:0,他引:1
周海岩 《小型微型计算机系统》2008,29(7)
频繁项目集的产生是关联规则挖掘的关键问题,经典的关联规则挖掘算法是通过对事务数据库的多次扫描实现的.最新的研究已经开始探索合适的数据结构以支持进行极少次数的事务数据库的扫描,进而减少关联规则挖掘过程中巨大的I/O开销以获得更高的效率.文中利用频繁项目链表的数据结构,给出了一种仅需扫描两次事务数据库的关联规则挖掘算法 ,称为FILLT算法.该算法采取分而治之策略,对频繁项目链表实施分割、变换来进行关联规则挖掘.文中最后对这一算法的效率进行了理论分析和实验验证. 相似文献
14.
15.
16.
17.
最大频繁项集的挖掘过程中,在最小支持度较小的情况下,超集检测是算法的主要耗时操作.提出了最大频繁项集挖掘算法FPMFI(frequent pattern tree for maximal frequent item set)使用基于投影进行超集检测的机制,有效地缩减了超集检测的时间.另外,算法FPMFI通过删除FP子树(conditional frequent pattern tree)的冗余信息,有效地压缩了FP子树的规模,减少了遍历的开销.分析表明,算法FPMFI具有优越性.实验比较说明,在最小支持度较小时,算法FPMFI的性能优于同类算法1倍以上. 相似文献
18.
基于频繁项集挖掘的贝叶斯分类算法 总被引:1,自引:0,他引:1
朴素贝叶斯分类器是一种简单而且高效的分类学习算法,但是它所要求的属性独立性假设在真实世界应用中经常难以满足.为了放松属性独立性约束以提高朴素贝叶斯分类器的泛化能力,研究人员进行了大量的工作.提出了一种基于频繁项集挖掘技术的贝叶斯分类学习算法FISC(frequent item sets classifier).在训练阶段,FISC找到所有频繁项集并计算可能用到的概率估值.在测试阶段,FISC对于测试样本包含的每个项集构造一个分类器,通过集成这些分类器来给出预测结果.实验结果验证了FISC的有效性. 相似文献
19.
样条权函数神经网络是一种新兴的神经网络,克服了很多传统神经网络(如BP、RBF)的缺点:比如局部极小、收敛速度慢等。它具有拓扑结构简单,精确记忆训练过的样本,反映样本的信息特征,求得全局最小值等优点。基于这些优点,文中提出了一种基于样条权函数神经网络P2P流量识别方法。通过提取P2P流量特征,运用样条权函数神经网络结构对P2P流识别。Matlab仿真和模拟实验结果表明了这种方案的可行性,与传统神经网络相比,样条权函数神经网络在时间效率上具有明显优势。 相似文献