共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
数据流的特点要求挖掘算法只能经过一次扫描获得挖掘结果,并且要求较低的空间复杂度。结合数据流的特点,提出一种基于滑动窗口的数据流频繁项集挖掘新算法MFIM。该算法采用二进制向量矩阵表示滑动窗口中的事务序列,以这种新的结构来记录频繁项集的动态变化,有效地挖掘数据流频繁项集。理论分析与实验结果表明该算法能获得较好的时间复杂度与空间复杂度。 相似文献
4.
针对频繁项集挖掘存在数据和模式冗余的问题,对数据流最大频繁项集挖掘算法进行了研究。针对目前典型的数据流最大频繁模式挖掘算法DSM-MFI存在消耗大量存储空间及执行效率低等问题,提出了一种挖掘数据流界标窗口内最大频繁项集的算法MMFI-DS,该算法首先采用SEFI-tree存储包含在不断增长的数据流中相关最大频繁项集的重要信息,同时删除SEFI-tree中大量不频繁项目,然后使用自顶向下和自底向上双向搜索策略挖掘界标窗口中一系列的最大频繁项集。理论分析与实验表明,该算法比DSM-MFI算法具有更高的效率,并能节省存储空间。 相似文献
5.
6.
7.
Apriori算法是当前使用最广泛的关联规则挖掘方法中最为经典的算法之一;但是该算法需要反复的扫描数据库,在I/O上花消很大,并且在得到频繁-2项集的过程中会产生庞大的候选-2项集,其次在筛选得到频繁-k项集时,并没排除那些不应该参组合的元素,而导致该算法效率很低,针对上面影响计算效率的三个方面提出基于压缩事务矩阵相乘得到频繁项目集的算法,只需一次扫描数据库,经过压缩处理产生产生事务矩阵,通过矩阵间运算得到频繁项目集,有效提高了关联规则的挖掘效率。 相似文献
8.
利用Apriori算法和FP-growth算法挖掘密集型数据集的全部频繁项集代价高昂,针对该问题提出一种基于链表数组的关联规则挖掘算法,该方法使用链表数组为每个项目建立事务链表,只需要扫描数据库1次,就能够快速得到每个候选项的支持度,从而有效的发现频繁项集。通过与经典算法分析对比表明,该算法具有较快的挖掘速度。 相似文献
9.
为改进基于数据库垂直表示的频繁项集挖掘算法的性能,给出了用索引数组方法来改进计算性能的思路.提出了索引数组的概念及其计算方法,并提出了一种新的高效的频繁项集挖掘算法Index-FIMiner.该算法大大减少了不必要的tidset求交及相应的频繁性判断操作,同时也论证了代表项可直接与其包含索引中的所有项集的组合进行连接,这些结果项集的支持度均与代表项的支持度相等,从而降低了这些频繁项集的处理代价,提高了算法的性能.实验结果表明,Index-FIMiner算法具有较高的挖掘效率. 相似文献
10.
11.
12.
13.
安全运营中心SOC(Security Operation Center)是安全管理体系中的核心平台,而关联分析引擎则是SOC中的核心内核,设计并实现一种关联分析引擎的原型,创新地将序列模式挖掘中的Carma算法应用在引擎中,并对算法进行改进,提出在原算法第一步中限定当前交易子集v的长度及减弱v被插入集合V的条件,显著减少频繁项集挖掘所产生的模式数量,提高挖掘速度,该引擎能够有效的消除或减少重复及冗余报警,并能从海量数据中对多步攻击的报警事件进行逻辑关联,发现隐藏的攻击策略,自动产生关联规则并具有预警功能。 相似文献
14.
多关系频繁模式发现能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式,避免了传统方法的局限。有别于主流基于归纳逻辑程序设计技术的方法,提出了基于合取查询包含关系的面向语义的精简化多关系频繁模式发现方法,具有理论与技术基础的新颖性,解决了两种语义冗余问题。实验表明,该方法在可理解性、功能、效率以及可扩展性方面具有优势。 相似文献
15.
随着网络信息的迅速增长,网络日志的数据量也成几何级数增长,而这些日志是具有一定的利用价值的。做为一种数据挖掘技术应用的网络日志挖掘就是对网络日志价值的一种利用方式。介绍网络日志挖掘技术的背景、定义,描述网络日志挖掘技术的具体实现过程,最后提出网络日志挖掘技术的具体的应用。 相似文献
16.
17.
针对传统的FP-growth关联规则算法应用在图书借阅推荐系统会产生重复推荐的问题,提出一种改进算法。该算法生成最大频繁项目集,避免冗余频繁项目集的产生,有效解决产生重复推荐的可能。接着引入页面兴趣度阈值,将其应用于改进的FP-growth算法中,形成一种基于页面兴趣度的关联规则算法即IN FP算法,将该算法应用在图书推荐系统中不仅提高系统运行效率,而且具有较高的准确率。 相似文献
18.
19.
针对工业控制网络终端控制系统软件的用户行为安全问题,提出用户操作层面行为可信评估的方法。首先从软件日志文档中提取出整数数列的历史序列,然后引入Apriori方法进行用户操作行为序列频繁模式挖掘,并基于挖掘出的模式集建立概率矩阵,最后通过提取当前用户行为序列,基于BLAST-SSAHA算法与历史序列模式集序列匹配,对用户行为可信性进行检测,为后续系统平台可信性评估提供依据。实验表明:文章提出的方法是有效可行的。 相似文献
20.
刘辉 《中国新技术新产品》2011,(14):28-28
Web文本分类是Web文本挖掘的主要内容,而特征项权重的计算是web文本分类中一个非常重要的步骤。Web文本一般由标题、描述和正文三部分组成。根据Web文本的这一特点,本文提出了一种基于位置的特征项权重算法,并使用此算法对Web文本进行了分类实验。实验结果表明该算法有效提高了Web文本分类系统的分类性能。 相似文献