共查询到18条相似文献,搜索用时 78 毫秒
1.
《电子技术与软件工程》2018,(2)
在数据挖掘技术中,基于关联规则的数据挖掘算法是较为重要的一个课题,是我国信息技术领域的热门研究课题。基于此,本文从数据挖掘算法入手,对基于关联规则的数据挖掘算法进行了分析,将这一算法的原理作为基础,提出了提高数据挖掘算法概率的改进措施,意在提高数据挖掘算法的处理效果,使其应用于更多领域中。 相似文献
2.
关联规则挖掘是数据挖掘研究的一个重要分支,其目的是为了发现大量数据中项目集之间感兴趣的相关性信息。经过十余年的发展,关联规则挖掘已经成为数据挖掘技术中较为成熟并很重要的一种方法,涉及到多种关联规则挖掘算法。文章重点介绍Apriori算法和FP—tree算法的基本思想、实现流程及其优缺点。 相似文献
3.
4.
当前关联规则挖掘主要着眼于正关联规则,如A→B的关联规则的挖掘,这种单一的只对正关联规则的挖掘方式存在严重的弊端,他掩盖了数据之间存在的隐含负关联规则,进而无法得出一些正关联规则中某些项目间相互制约的负关联关系。在关联规则概念和性质的基础上提出了基于频繁模式树的拓展式的正、负项目的关联规则挖掘算法,通过对数据库的遍历形成前缀链表,不仅挖掘包含所有正项目的关联规则,而且还能够挖掘出所有包含负项目的关联规则,不会造成负关联规则的淹没。并对算法的效率和可行性进行分析,该算法在描述关联规则项目间的相互独立程度上比已有的单一挖掘负项目的关联规则算法更具优势。 相似文献
5.
CR:一种逆向的关联规则挖掘算法 总被引:4,自引:0,他引:4
引入与交易相关的有关概念,对传统关联规则挖掘的概念进行了扩展,并基于交易提出了一种关联规则挖掘算法,该算法从较长的交易入手,试图找出长的频繁项集,再确定它们的子项集,从而避免了组合爆炸问题。该算法对原数据库进行1次扫描,对压缩数据库进行了2次扫描,较Apriori算法减少了扫描次数,提高了挖掘效率。 相似文献
6.
关联规则是数据挖掘的重要手段,它基于支持度、置信度等对规则进行筛选,生成有用的规则,由于根据实际情况有时会产生虚假规则,所以兴趣度也自然被引入。遗传算法是自动化技术、专家系统等经常采用的算法。通过改进的遗传算法进行关联规则数据挖掘并进行了实例应用。遗传算法能较好地得出发生交通事故原因与结果的关联规则,提高数据挖掘的效率。 相似文献
7.
针对渐进式关联规则挖掘问题提出了一个有效的处理算法,即IDM—A算法。它能根据数据库的动态变化,高效地进行关联规则的更新。通过知识数据库的维护,最多只需要扫描原始数据库一次,就能得到所需的频繁项目集,能有效地降低更新关联规则所需的时间成本。 相似文献
8.
一种基于云计算的关联规则Apriori算法 总被引:1,自引:0,他引:1
关联规则是数据挖掘的重要方法之一,它基于支持度和置信度等对规则进行选择,以生成有用的规则。传统的关联规则算法需要读取数据库计算频繁集,开销巨大。随着云计算的发展,MapReduce编程架构已经成为云计算中的重要技术,针对Apriori算法的不足,设计了一种算法将云计算MapReduce框架进行了适当改进,并在此基础上编写了Apriori算法,以解决Apriori算法扩展性差的弱点。实验表明:该算法能有效提高Apriori算法的性能。 相似文献
9.
数据挖掘就是从大量的数据中挖掘出有用的信息。数据挖掘与传统的数据分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。文章分析了数据挖掘算法的关联规则特性,对其在股票市场中的应用进行了重点,以便更好的应用在更多的领域。 相似文献
10.
基于安全管理中心的关联引擎的关联速度决定了关联引擎的关联时效,客观上决定了安全管理中心抵御安全威胁的能力。为提高关联的速度,论文以关联规则的组织和持续关联算法的设计实现为切入点,提出关联速度的解决方案。 相似文献
11.
提出了一种基于关联规则二进制数组密集树的数据挖掘算法——BSC-tree算法,该算法将传统的交易数据库简化成二进制序列;其次在此基础上构造出BSC-trees,作为数据挖掘的准备条件,并由此求出BSC-trees的所有路径码,进而通过BSC-trees路径码间的逻辑与运算,他一次只需扫描整个数据库就能够快速地求出所有的关联规则。并将该算法用于交通事故历史数据的挖掘,他能够提取隐含在交通事故中未知的有用信息,为分析交通事故中各种诱因提供辅助性的决策。试验结果表明该算法优于其他算法。 相似文献
12.
提出了一种有效的增量式关联规则挖掘算法IAR,算法的特点在于:提出并采用了基于候选项集个数上阶的选择扫描数据库的机制,可有效减少数据库的扫描次数;算法是一种通用的增量式算法,提出了最小支持度和数据库均改变时,增量式挖掘中的重要性质,从而可充分利用上一次挖掘的结果,有效减少候选项集的数目.并且提出了基于组合数学和项集等价类理论的计算候选项集个数的上阶的方法.通过大量的数据实验,表明算法的效率比已有的算法有了很大提高. 相似文献
13.
随着信息技术和数据库技术的飞速发展,从大量的数据中获取有用的信息和知识变得越来越重要。模糊关联规则挖掘是数据挖掘中针对数量型属性关联规则发现的一种有效方法。提出了一种基于矩阵的模糊关联规则挖掘算法,并将其应用于网络安全事件关联分析中,通过对DARPA标准数据集的分析,得出了预期数量的关联规则,并成功验证了某些攻击场景,该模糊关联规则挖掘算法取得了较好的实验结果。 相似文献
14.
频繁项集挖掘是关联规则挖掘中至关重要的一步。对于稠密数据集的频繁项集挖掘,传统的挖掘算法往往产生大量无用的中间结果,造成内存利用率的极大浪费,尤其是在支持度较低的情况下。Diffsets算法通过引入"差集"的概念,在一定程度上解决了挖掘过程中产生的大量中间结果与内存容量之间的矛盾。改进型Diffsets算法是在原算法的基础上,在差集运算过程中根据差集中所包含的事务标识个数进行递减排序,进一步减少了挖掘过程中产生的中间结果数量。分析与实例表明,改进后的算法在执行过程中将占用更少的内存空间,加快了算法的收敛速度。 相似文献
15.
基于项集特性的关联规则挖掘中Apriori算法的改进 总被引:2,自引:0,他引:2
提出一个改进Apriori的算法IApr,利用事务数据库的事务数相对于项集的项的个数而言要大得多这一特点,采用线性存储结构,并结合推出并证明的项集特性,考虑候选频繁项目集的各个项的应满足的条件,只需扫描一次事务数据库,有效减少了生成候选频繁项集的数目,从数据扫描量、搜索空间、时间复杂度上分析都提高了算法效率。 相似文献
16.
17.
针对关联规则挖掘中的高效更新问题,对增量和负增量问题进行了讨论,提出当最小支持度发生变化时可归结为数据库发生变化的情形进行讨论。采用十字链表来分别存储原数据库DB和变化数据库db中,各频繁项集及其支持度s1和s2,通过对s1,s2及最小支持度s0的比较分析,判断项集是否为频繁项集,减少了扫描数据库的次数,提高了更新后的... 相似文献
18.
通过分析电子商务网站的 Web 服务器日志提取网络消费者的商品浏览行为信息,利用消费者的浏览频率、浏览时间、链接路径数及路径深度估计商品对网络消费者当前浏览期间偏好的影响权重.结合双向关联规则理论和 Apriori 算法挖掘具有相互依赖关系的商品,找出网络消费者的商品偏好浏览路径,根据消费者当前的浏览行为发现其可能感兴趣的商品,并进一步计算消费者对商品的偏好程度.最后利用自主开发的旅游电子商务网站的Web 日志数据进行仿真实验,挖掘网络消费者的旅游偏好.实验结果表明,在相同的实验条件下,与基于关联规则的偏好挖掘方法相比,基于双向关联规则的偏好挖掘方法的推荐精度增加,推荐覆盖率扩大. 相似文献