共查询到19条相似文献,搜索用时 78 毫秒
1.
WANG Juan 《数字社区&智能家居》2008,(34)
针对FP算法的缺陷,将OLAP技术和Apriori关联规则相结合,提出了一种针对FP算法的改进的多层次关联规则数据挖掘算法,在分析了关联规则数据挖掘结构的基础上,给出了该算法的思想与执行步骤,对于关联规则数据挖掘的研究具有一定的理论意义。 相似文献
2.
郑珩 《电脑编程技巧与维护》2015,(13)
对数据挖掘算法以及MapReduce分布式计算模型进行了简要的分析,详细地阐述了数据挖掘算法中最为常见的Apriori算法在云数据平台下的实现. 相似文献
3.
FP-Growth算法的改进 总被引:1,自引:0,他引:1
基于FP树的FP-Growth算法在挖掘频繁模式过程中需要两次扫描事务集来建立FP树,这不仅降低了算法的效率,而且给数据库服务器带来负担.在原有经典FP-Growth算法的基础上,提出一种基于二维表的方法对原算法进行改进,改进算法通过使用二维向量记录频繁度仅需遍历一次事务集,从而省略FP-Growth算法在生成新条件FP树时对条件模式基的第一次遍历,大大缩短了建立FP树的时间.实验结果表明,该算法的改进优于经典算法. 相似文献
4.
通过分析分布式拒绝服务(DDoS)攻击的特征,提出了基于数据挖掘技术的网络入侵检测方法来检测DDoS攻击,针对数据挖掘中FP-growth算法不产生候选集的优势,对进行处理及分组后的网络数据进行频繁特征提取,根据DDoS攻击会使网络的流量数据发生变化的特点,来检测是否发生攻击事件.实验结果表明,当发生DDoS攻击后网络数据确实发生了巨大的变化, 通过对网络数据的特征提取,完全可以检测出DDoS攻击的发生. 相似文献
5.
6.
7.
《计算机光盘软件与应用》2013,(2):157-158
云服务器是一个庞大数据处理中心,如同企业DIY服务器一样,它基于定制化的可横向扩展的硬件,并且预装了相关的软件,同时去掉了传统服务器的某些功能,像互联网企业这样的用户可以直接拿来就用,定制服务器具有高效、迅速、稳定、安全等性能,并且绿色节能,是未来云数据中心必然发展趋势。 相似文献
8.
针对FP-Growth算法在构建FP-tree过程中需要对事务数据库扫描两次,同时在利用FP-tree挖掘频繁项集过程中产生大量条件模式基和条件模式树的问题,提出一种改进的FP-Growth算法。该算法只需扫描一次事务数据库,就能构建一棵无相同节点的新的FP-tree;弃用项头表,新增与新的FP-tree关联的节点表,将构建新的FP-tree过程中"多余"的项信息存入节点表;利用新的FP-tree和节点表挖掘频繁项集。实验结果表明了该算法的可行性和有效性,其提高了数据挖掘的效率。 相似文献
9.
10.
11.
基于Hadoop的FP-Growth关联规则并行改进算法 总被引:1,自引:0,他引:1
大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(Parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,本文提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,本文使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。 相似文献
12.
Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。 相似文献
13.
为了提高转子故障诊断识别准确率, 提出一种基于改进V-detector算法的转子故障辨识方法。首先对V-detector算法进行了改进, 该算法通过改变拒绝和接受假设检验的条件来减少无效检测器的产生进而提高算法的检测准确率; 然后将信号的谱熵值作为特征向量, 并根据转子故障类型将其划分为多个自体样本集, 用改进后V-detector算法训练出多个检测器集; 最后利用其设计出能够识别转子故障的分类器。仿真结果表明, 改进的V-detector算法能产生较少的检测器, 覆盖率由95%升高至99%时检测器数目无明显增加, 与原算法相比提高了故障的辨识精度。 相似文献
14.
FP—Growth算法MapReduce化研究 总被引:1,自引:0,他引:1
随着云计算概念的盛行,以及数据挖掘技术在分布式环境下的应用问题,该文献针对当前业界中流行的大规模并行计算模型MapReduce,将其引入数据挖掘领域关联规则算法的并行化改进中,提出基于FP-Growth算法并行化改进的MR—FP算法,为并行化关联规则挖掘提供节点可扩展、可容错、故障可恢复的运行保证。并通过案例分析得出系统在事务数呈数量级级别增长下仍可保持较高的性能。通过理论分析和案例实验表明,数据挖掘理论和方法在云计算环境下可以充分发挥能力,具有广阔的、有价值的研究空间。 相似文献
15.
传统的数据挖掘模式和方法已经不能适应如今数据的快速增长,分析了将传统数据挖掘算法与云计算技术相结合的实现过程。通过研究云计算环境下海量数据挖掘的三层模型,发现该模型最大的优点是数据挖掘速度快、可靠性高,而且随着数据量的增加,该模型的优势也愈发明显。 相似文献
16.
数据挖掘可以利用各种分析工具从海量数据中发现模型和数据间的关系并做出预测。为了解决入侵检测在不降低精度的同时提高检测速度的问题,提高算法的效率,将FP-Growth算法应用于入侵检测系统中,提出对FP-Growth算法改进FP-tree的头表结构并引入关键属性来挖掘原始审计数据中的频繁模式,实验结果表明改进后的算法比传统的关联算法在入侵检测中的应用效果更好。可以看出,将FP-Growth算法应用于入侵检测中是可行的。 相似文献
17.
一种基于FP-Growth的频繁项目集并行挖掘算法 总被引:1,自引:0,他引:1
FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式树,并对之进行挖掘得到局部频繁项目集,然后合并局部频繁项目集以得到全局频繁项集,由于此时得到的结果并不完备,所以对合并后未达到最小支持度阈值的项目集,重新计算其支持数。介绍了FPPM算法的设计思想,测试了其性能。实验结果表明FPPM算法具有较好的可扩展性。 相似文献
18.
为了进一步提高在Spark平台上的频繁模式增长(FP-Growth)算法执行效率,提出一种新的基于Spark的并行FP-Growth算法——BFPG。首先,从频繁模式树(FP-Tree)规模大小和分区计算量对F-List分组策略进行改进,保证每个分区负载总和近似相等;然后,通过创建列表P-List对数据集划分策略进行优化,减少遍历次数,降低时间复杂度。实验结果表明,BFPG算法提高了并行FP-Growth算法挖掘效率,且算法具有良好的扩展性。 相似文献
19.
针对小区居民用电数据挖掘效率低、数据量大等难题,进行了基于云计算和改进K-means算法的海量用电数据分析方法研究。针对传统K-means算法中存在初始聚类中心和K值难确定的问题,提出一种基于密度的K-means改进算法。首先,定义样本密度、簇内样本平均距离的倒数和簇间距离三者乘积为权值积,通过最大权值积法依次确定聚类中心,提高了聚类的准确率;然后,基于MapReduce模型实现改进算法的并行化,提高了聚类的效率;最后,以小区400户家庭用电数据为基础,进行海量电力数据的挖掘分析实验。以家庭为单位,提取出用户的峰时耗电率、负荷率、谷电负荷系数以及平段用电量百分比,建立聚类的数据维度特征向量,完成相似用户类型的聚类,同时分析出各类用户的行为特征。基于Hadoop集群的实验结果证明提出的改进K-means算法运行稳定、可靠,具有很好的聚类效果。 相似文献