首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对于连续频繁访问路径的挖掘如果采用常见的序列模式挖掘算法, 挖掘效率是比较低的, 而且只能得到频繁访问路径. 本文在研究访问路径性质的基础上给出了一种能从普通 Web 日志中挖掘出连续频繁访问路径的算法. 设计了一种新颖的数据结构压缩存储空间及存储所需挖掘信息. 同时采用分区搜索的方式, 为每个频繁节点构造一棵后缀树, 通过遍历该后缀树挖掘出连续频繁访问路径. 采用这种方法进行挖掘, 无需生成候选集, 而且一次就可以挖掘出所有以根节点为后缀的连续频繁访问路径.  相似文献   

2.
鉴于频繁项集存在数据和模式冗余的问题,挖掘数据流最大频繁项集的算法引起了极大的关注,本文提出了一种挖掘数据流滑动窗口内最大频繁项集算法——MMFI-SW算法。该算法首先使用类似FP-tree的数据结构记录最新到达的数据流信息,同时删除过时的数据和大量的不频繁项目,然后设计一个创新的方法有效地从数据流滑动窗口中输出最大频繁项集。理论分析与实验结果表明,MMFI-SW算法具有较低的时间复杂度。  相似文献   

3.
丁邦旭 《硅谷》2012,(5):152-153
数据流的特点要求挖掘算法只能经过一次扫描获得挖掘结果,并且要求较低的空间复杂度。结合数据流的特点,提出一种基于滑动窗口的数据流频繁项集挖掘新算法MFIM。该算法采用二进制向量矩阵表示滑动窗口中的事务序列,以这种新的结构来记录频繁项集的动态变化,有效地挖掘数据流频繁项集。理论分析与实验结果表明该算法能获得较好的时间复杂度与空间复杂度。  相似文献   

4.
针对频繁项集挖掘存在数据和模式冗余的问题,对数据流最大频繁项集挖掘算法进行了研究。针对目前典型的数据流最大频繁模式挖掘算法DSM-MFI存在消耗大量存储空间及执行效率低等问题,提出了一种挖掘数据流界标窗口内最大频繁项集的算法MMFI-DS,该算法首先采用SEFI-tree存储包含在不断增长的数据流中相关最大频繁项集的重要信息,同时删除SEFI-tree中大量不频繁项目,然后使用自顶向下和自底向上双向搜索策略挖掘界标窗口中一系列的最大频繁项集。理论分析与实验表明,该算法比DSM-MFI算法具有更高的效率,并能节省存储空间。  相似文献   

5.
针对生物网络中频繁子图的挖掘问题,提出了一种基于FP-树结构的MaxFP算法.此算法以代谢路径作为研究对象,在适合于生物网络图简化模型的基础上,采用一种不产生候选集的改进FP-growth算法挖掘生物网络中的闭合频繁子图.此算法考虑了基于频繁项目集的算法应用于网络的缺陷,根据生物网络的特点对FP-growth算法进行了改进.实验证明,提出的MaxFP算法比基于Apriori的频繁模式挖掘算法运行速度快,不仅能挖掘出最大的频繁子图,且能找到更多具有生物意义的频繁子图.  相似文献   

6.
研究、分析了影响经典的模式挖掘方法挖掘频繁访问模式的效率,使其难以被存储系统接受的主要因素--噪音的产生原因和表现类型,提出一种具有噪音过滤能力,适应存储系统频繁访问序列模式挖掘的新方法--Z-Miner.Z-Miner使用全局分支裁剪和分支聚类方法来过滤噪音,对实际系统工作负载的模拟结果显示,Z-Miner指导的预取可以使缓存失效率降低40%~66%,平均响应时间降低26%~66%.相对经典挖掘方法,Z-Miner的挖掘开销有1~2个数量级的下降,而预取优化效果提高了1倍.  相似文献   

7.
Apriori算法是当前使用最广泛的关联规则挖掘方法中最为经典的算法之一;但是该算法需要反复的扫描数据库,在I/O上花消很大,并且在得到频繁-2项集的过程中会产生庞大的候选-2项集,其次在筛选得到频繁-k项集时,并没排除那些不应该参组合的元素,而导致该算法效率很低,针对上面影响计算效率的三个方面提出基于压缩事务矩阵相乘得到频繁项目集的算法,只需一次扫描数据库,经过压缩处理产生产生事务矩阵,通过矩阵间运算得到频繁项目集,有效提高了关联规则的挖掘效率。  相似文献   

8.
王希馗 《硅谷》2011,(10):191-192,157
利用Apriori算法和FP-growth算法挖掘密集型数据集的全部频繁项集代价高昂,针对该问题提出一种基于链表数组的关联规则挖掘算法,该方法使用链表数组为每个项目建立事务链表,只需要扫描数据库1次,就能够快速得到每个候选项的支持度,从而有效的发现频繁项集。通过与经典算法分析对比表明,该算法具有较快的挖掘速度。  相似文献   

9.
为改进基于数据库垂直表示的频繁项集挖掘算法的性能,给出了用索引数组方法来改进计算性能的思路.提出了索引数组的概念及其计算方法,并提出了一种新的高效的频繁项集挖掘算法Index-FIMiner.该算法大大减少了不必要的tidset求交及相应的频繁性判断操作,同时也论证了代表项可直接与其包含索引中的所有项集的组合进行连接,这些结果项集的支持度均与代表项的支持度相等,从而降低了这些频繁项集的处理代价,提高了算法的性能.实验结果表明,Index-FIMiner算法具有较高的挖掘效率.  相似文献   

10.
为实现在大型事务数据库中挖掘有价值的序列数据,提出了一种基于位图的高效的序列模式挖掘算法(SMBR)。SMBR算法采用位图表示数据库的方法,提出一种简化的位图表示结构。该算法首先由序列扩展和项扩展产生候选序列,然后通过原序列位图和被扩展项位图位置快速运算生成频繁序列。实验表明,应用于大型事务数据库,该方法不仅能有效地提高挖掘效率,而且挖掘处理过程中产生的临时数据所需的内存大大降低,能够高效地挖掘序列模式。  相似文献   

11.
针对用于数据流频繁项集挖掘的现有方法存在引入过多次频繁项集以及时空性能与输出精度较低的问题,利用Chebyshev不等式,构造了项集频度周期采样的概率误差边界,给出了动态检测项集支持度变化方法.提出了一种基于周期采样的数据流频繁项集挖掘算法FI-PS,该算法通过跟踪项集支持度变化确定项集支持度的稳定性,并以此作为调整窗口大小以及采样周期的依据,从而以一个较大的概率保证项集支持度误差有上界.理论分析及实验证明该算法有效,在保证挖掘结果准确度相对较好的条件下,可获得较优执行性能.  相似文献   

12.
频繁了图挖掘主要涉及到子图搜索和子图同构问题.对子图搜索问题,本文提出了环分布的概念,并构造了基于环分布的子图搜索算法:对了图同构问题,本文利用度序列和特征值构造了两种算法,分别用于对有向图和无向图的同构判别.利用同构算法对搜索出的子图进行同构分类,根据分类结果得到频繁了图.实验结果表明,本算法的效率优于现有算法.  相似文献   

13.
王蕾 《硅谷》2011,(24):69-70
安全运营中心SOC(Security Operation Center)是安全管理体系中的核心平台,而关联分析引擎则是SOC中的核心内核,设计并实现一种关联分析引擎的原型,创新地将序列模式挖掘中的Carma算法应用在引擎中,并对算法进行改进,提出在原算法第一步中限定当前交易子集v的长度及减弱v被插入集合V的条件,显著减少频繁项集挖掘所产生的模式数量,提高挖掘速度,该引擎能够有效的消除或减少重复及冗余报警,并能从海量数据中对多步攻击的报警事件进行逻辑关联,发现隐藏的攻击策略,自动产生关联规则并具有预警功能。  相似文献   

14.
多关系频繁模式发现能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式,避免了传统方法的局限。有别于主流基于归纳逻辑程序设计技术的方法,提出了基于合取查询包含关系的面向语义的精简化多关系频繁模式发现方法,具有理论与技术基础的新颖性,解决了两种语义冗余问题。实验表明,该方法在可理解性、功能、效率以及可扩展性方面具有优势。  相似文献   

15.
李明 《硅谷》2010,(14):63-64
随着网络信息的迅速增长,网络日志的数据量也成几何级数增长,而这些日志是具有一定的利用价值的。做为一种数据挖掘技术应用的网络日志挖掘就是对网络日志价值的一种利用方式。介绍网络日志挖掘技术的背景、定义,描述网络日志挖掘技术的具体实现过程,最后提出网络日志挖掘技术的具体的应用。  相似文献   

16.
针对应用于物流和供应链管理的射频识别(RFID)系统产生的海量路径数据集中的多维频繁路径挖掘的问题进行了深入的研究,提出了Dim-path与Path-dim两种不同的顺序处理非路径维数据和路径数据的多维频繁路径挖掘算法.这两种算法根据RFID路径数据自身的特点,将RFID数据划分为非路径维数据、位置数据、停留时间数据,...  相似文献   

17.
李连焕  刘建东 《硅谷》2012,(6):93-93,114
针对传统的FP-growth关联规则算法应用在图书借阅推荐系统会产生重复推荐的问题,提出一种改进算法。该算法生成最大频繁项目集,避免冗余频繁项目集的产生,有效解决产生重复推荐的可能。接着引入页面兴趣度阈值,将其应用于改进的FP-growth算法中,形成一种基于页面兴趣度的关联规则算法即IN FP算法,将该算法应用在图书推荐系统中不仅提高系统运行效率,而且具有较高的准确率。  相似文献   

18.
基于序列模式来研究铝电解槽况,提出了槽况序列和决策序列的定义,并根据top-k频繁模式挖掘的思想,给出了挖掘最佳槽况序列和决策序列的算法.  相似文献   

19.
针对工业控制网络终端控制系统软件的用户行为安全问题,提出用户操作层面行为可信评估的方法。首先从软件日志文档中提取出整数数列的历史序列,然后引入Apriori方法进行用户操作行为序列频繁模式挖掘,并基于挖掘出的模式集建立概率矩阵,最后通过提取当前用户行为序列,基于BLAST-SSAHA算法与历史序列模式集序列匹配,对用户行为可信性进行检测,为后续系统平台可信性评估提供依据。实验表明:文章提出的方法是有效可行的。  相似文献   

20.
Web文本分类是Web文本挖掘的主要内容,而特征项权重的计算是web文本分类中一个非常重要的步骤。Web文本一般由标题、描述和正文三部分组成。根据Web文本的这一特点,本文提出了一种基于位置的特征项权重算法,并使用此算法对Web文本进行了分类实验。实验结果表明该算法有效提高了Web文本分类系统的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号