共查询到19条相似文献,搜索用时 246 毫秒
1.
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。 相似文献
2.
基于并行遗传算法的规则发现研究 总被引:1,自引:0,他引:1
阐述了传统遗传算法的基本思想、原理和步骤及其在数据挖掘(规则集发现)中的应用,给出了基于遗传算法的知识规则挖掘算法的基本思想和关键问题,包括知识规则表示、适应度函数定义等,继而提出多种群并行进化结构,利用精英重组策略,产生池进化模型以及自适应参数的手段调整并行遗传算法进行数据挖掘.在算法具体实现过程中,采用了动态变异交叉概率等方法,有效避免了并行遗传算法中早熟现象的发生.以北美香菇数据为例,进行并行遗传算法挖掘分类规则,实验说明了该算法在发现和进化规则方面的有效性. 相似文献
3.
序列模式数据挖掘算法的并行化研究 总被引:1,自引:0,他引:1
序列模式在许多领域都有着重要的应用,大量的数据和模式需要高效的、可扩展的并行算法.针对目前序列模式挖掘算法存在的普遍问题,在对串行序列模式数据挖掘算法研究的基础上,本文提出了一种并行的序列模式数据挖掘算法.通过理论分析与实验验证可知:该并行数据挖掘算法,在海量数据的情形下,能很好地提高数据挖掘的效率. 相似文献
4.
5.
研究大云数据快速挖掘优化控制问题.在大云数据环境下,产生的海量数据通常是地理上分布、异构、动态的,复杂性也越来越高,若用传统的集中式云计算算法对数据进行挖掘处理,会使算法陷入无穷对比的境地,造成算法不收敛,复杂度高的弊端.为解决上述问题,提出了一种并行Apriori算法的大云数据挖掘方法.对大云数据进行简化处理,去除其中的冗余数据,为大云数据快速挖掘提供数据基础.计算大云数据中的关联规则,从而获取大云数据之间的相关性.对大云数据进行处理,实现大云数据挖掘.实验结果表明,利用改进算法进行大云数据挖掘处理,能够有效提高数据挖掘的速度,存在较强的优越性. 相似文献
6.
无人机在飞行的过程中,采集的故障信号数据会随着飞行环境的随机性变化而改变,造成异常信号数据关联性降低.利用传统算法进行异常信号数据挖掘的过程中,建立的关联规则过于复杂,加入过多约束条件分析环境特征,导致挖掘过程耗时较长.为解决上述问题,提出基于知识本体提纯的无人机采集实时数据挖掘方法.针对无人机异常信号数据知识本体表示方法进行了详细阐述.利用贝叶斯概率方法计算当前状态信号属于某类别异常信号的最大概率,从而为异常信号的提纯提供了准确依据.针对相似度较高的两个异常信号进行提纯处理,在提纯过程中充分考虑到信号采集时间间隔和时延,从而保证了实时性要求.实验结果表明,利用改进算法进行无人机异常信号挖掘,能够提高异常信号挖掘的及时性和准确性. 相似文献
7.
阐述了传统遗传算法的基本思想、原理和步骤及其在数据挖掘(规则集发现)中的应用,给出了基于遗传算法的知识规则挖掘算法的基本思想和关键问题,包括知识规则表示、适应度函数定义等,继而提出多种群并行进化结构,利用精英重组策略,产生池进化模型以及自适应参数的手段调整并行遗传算法进行数据挖掘。在算法具体实现过程中,采用了动态变异交叉概率等方法,有效避免了并行遗传算法中早熟现象的发生。以北美香菇数据为例,进行并行遗传算法挖掘分类规则,实验说明了该算法在发现和进化规则方面的有效性。 相似文献
8.
9.
随着信息技术迅速发展,数据库的规模不断扩大,从而产生了大量的数据。如果使用传统的数据挖掘技术从庞大的数据中挖掘出有价值的规则、模式等将需要巨大的计算资源,而且会花费很长的时间。在考虑到挖掘的效率,负载平衡,运行环境,节点状态等多方面因素的基础上,文章提出了新的并行数据挖掘算法。各个并行计算单元之间采用全局通讯模式——Master-Worker模式来进行互相通信,降低了并行数据挖掘的通信成本,提高了挖掘的效率,缩短了挖掘的时间。最后,实验结果验证了该算法的有效性以及在大数据集挖掘应用中的优越性。 相似文献
10.
11.
针对云服务器使用过程中参数异常的问题,介绍了云服务器的参数数据获取、数据清洗整理和有效分析过程。针对现有频繁模式增长(FP-Growth)算法中存在的条件FP-tree构建过程过于冗余以及数据量级越大处理效率越低的问题,提出了一种改进的FP-Growth算法,引入数组标记策略,每个FP-tree节点只保留指向父节点的指针。改进算法在挖掘过程中无需生成条件FP-tree,减少了时空消耗。实验结果表明,改进后的FP-Growth并行算法能够有效地提高云平台虚拟机异常数据的关联分析效率,并且改进算法也适用于较大规模数据集的数据挖掘工作。 相似文献
12.
随着Internet技术的发展,分布式数据挖掘越来越受到重视。分布式数据挖掘急需一种能聚合多种网络功能为通信媒介,松耦合、并行的数据挖掘架构。以分析经典并行数据挖掘模型PADMA和BODHI为基础,结合现实需要给出了一种新的并行分布式数据挖掘模型——PADMAN。模型采用分治策略,将数据挖掘任务进行划分并分配给数据挖掘组,群组之间并行挖掘;基于Agent,使各基本数据挖掘单元具有自治性;群组客户端和全局客户端可实现无线接入,使用户端的使用和接入更加灵活。分治策略的应用,使模型具有良好的模块化和可扩展性。 相似文献
13.
挖掘频繁项集是挖掘数据流的基本任务。许多近似算法能够有效地对数据流进行频繁项挖掘,但不能有效地控制内存资源消耗和挖掘运行时间。为了提高数据流频繁项集挖掘的时空效率,通过引入矩阵作为概要数据结构,提出了一种新的数据流频繁项集挖掘算法。最后通过实验证明了该算法的有效性。 相似文献
14.
针对目前大数据快速增加的环境下,海量数据的频繁项集挖掘在实际中所面临的增量更新问题,在频繁项超度量树算法(frequent items ultrametric trees,FIUT)的基础上,引入MapReduce并行编程模型,提出了一种针对频繁项集增量更新的面向大数据的并行算法。该算法通过检查频繁超度量树叶子节点的支持度来确定频繁项集,同时采用准频繁项集的策略来优化并行计算过程,从而提高数据挖掘效率。实验结果显示,所提出的算法能快速完成扫描和更新数据,具有较好的可扩展性,适合于在动态增长的大数据环境中进行关联规则相关数据挖掘。 相似文献
15.
本文提出一种融合改进遗传算法和关联规则的数据挖掘方法。首先将遗传算法交叉算子和变异算子进行自适应改进,使其在迭代过程中能够根据函数适应度值自适应调节。然后将改进后的自适应遗传算法融入到关联规则中,充分利用遗传算法良好的全局搜索能力,提高处理海量数据关联规则的挖掘效率。为了避免无用规则,减少不相关性的存在,在此基础上融入亲密度以提高关联规则的可靠性。在Hadoop大数据平台上通过分析交通数据验证优化后的算法,与传统方法相比,该方法提高了算法的收敛速度和鲁棒性。 相似文献
16.
17.
吴新玲 《计算机工程与设计》2006,27(9):1557-1559
将不完全数据分为了两类:属性值残缺和属性值隐含.对基于这两类不完全数据的数据挖掘方法分别进行了探讨,给出了相应的处理方法,并对这些方法及其应用进行了讨论.属性值残缺的处理主要采用一系列"补漏"的方法,使数据成为完全数据集;属性值隐含的处理则通过EM算法来优化模型的参数,弥补数据的不完全性. 相似文献
18.
为了方便油藏数据特征的分析和石油的勘探开发过程,本文利用Spark并行计算框架分析油藏数据,并通过数据挖掘算法分析油藏属性之间的潜在关系,对油藏的不同层段进行了分类和预测.本文的主要工作包括:搭建Spark分布式集群和数据处理、分析平台,Spark是流行的大数据并行计算框架,相对传统的一些分析方法和工具,可以实现快速、准确的数据挖掘任务;根据油藏数据的特点建立多维异常检测函数,并新增渗孔比判别属性Pr;在处理不平衡数据时,针对逻辑回归分类提出交叉召回训练模型,并优化代价函数,针对决策树,提出KR-SMOTE对小类别样本进行过采样扩充,这两种方法都可以有效处理数据不平衡问题,提高分类精度. 相似文献