首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 635 毫秒
1.
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。  相似文献   

2.
增量式ETL工具的研究与实现   总被引:13,自引:0,他引:13  
利用数据源的增量数据对数据仓库进行维护,可以有效提高ETL效率.现有通用ETL工具在增量抽取方面存在…些问题,如不能抽取多个异构数据源的增量数据以及在处理增量数据时造成数据丢失的异常问题.本文从实践角度设计的增量式ETL工具采用集成多种增量数据捕获方式,解决异构数据源在捕获增量数据上的差异;在数据处理过程中,通过辅助表的手段解决了数据丢失的问题.在文章的最后,还介绍了ETL过程中数据转换和转换调度的实现.  相似文献   

3.
增量ETL过程自动化产生方法的研究   总被引:11,自引:0,他引:11  
ETL过程用于将数据从数据源装载到数据仓库中,它可以被划分为两种类型:全量ETL过程和增量ETL过程·全量ETL过程只能处理全量数据,但易于设计·而增量ETL过程设计起来比较复杂,但适用于处理增量数据·主要对增量ETL过程的自动化产生方法进行了研究,根据已有的全量ETL过程,可以自动产生增量ETL过程,从而降低设计增量ETL过程的代价·利用已有的物化视图增量维护的方法,给出了根据全量ETL过程自动产生增量ETL过程的方法·但是已有的研究集中在包含选择、投影、联接和聚合运算情况下物化视图的增量维护,未见对包括差运算情况下的讨论·作为研究工作的基础,还详细讨论了包含差运算情况下物化视图的增量维护问题·  相似文献   

4.
JPPF在构建高性能ETL过程中的应用   总被引:1,自引:0,他引:1  
数据仓库中数据规模的不断膨胀和数据实时性需求的提高使得对ETL过程性能要求越来越高.通过对并行处理框架JPPF分析,提出了利用JPPF构建高性能ETL系统架构方案和一种ETL数据处理任务提交算法.经过测试和性能对比证明了该方案在处理包含大规模计算任务的ETL过程优势明显.  相似文献   

5.
概述了ETL目前常用的增量数据抽取方法,在全表比对方法基础上,提出了基于关键属性比对的增量数据提取方法,描述了关键属性提取算法,并建立其模型,用实验验证了基于关键属性比对的方法优于全表比对方法和全表删除插入方法。  相似文献   

6.
数据仓库ETL任务调度模型研究   总被引:2,自引:0,他引:2  
数据仓库系统包含众多的抽取-转换-加载(ETL)任务,这些任务具有一定的优先约束关系.在多处理机环境下,如何高效地调度这些ETL任务是构建数据仓库需要研究的重要问题.对此,在对数据仓库ETL任务调度规则进行归纳总结的基础上,以数据仓库总的ETL完成时间最短为目标,建立了数据仓库ETL任务调度模型.同时结合问题的特点,采用同层划分的思想,提出基于同层划分遗传算法求解问题的方法.最后,通过应用实例验证了所建立模型和求解算法的可行性和有效性.  相似文献   

7.
针对大数据环境下基于Can树(canonical order tree)的增量关联规则算法存在树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MR-PARIRM(MapReduce-based parallel association rules incremental mining algo-rithm using rough set and merge pruning).首先,设计了一种基于粗糙集的相似项合并策略RS-SIM(rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘;最后,通过动态调度策略DSS(dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力.最终的实验仿真结果表明,MR-PARIRM在大数据环境下具有相对较好的性能表现,适用于对大规模数据进行并行化处理.  相似文献   

8.
针对并行SVM在大数据环境下对冗余数据敏感、参数寻优能力差以及并行过程中出现的负载不均衡等问题,提出了一种基于聚类算法和鲸鱼优化算法的并行支持向量机算法MR-KWSVM。首先,该算法提出KF策略来删减冗余数据,利用删减冗余数据后的数据集训练SVM,降低SVM对冗余数据的敏感性;其次,提出了基于非线性收敛因子和自适应惯性权重的鲸鱼智能优化算法IW-BNAW,利用“IW-BNAW”算法获取SVM的最优参数,提高支持向量机的参数寻优能力;最后,在利用MapReduce构造并行SVM的过程中,提出时间反馈策略用于reduce节点的负载调度,提高了集群的并行效率,实现了高并行的SVM。实验结果表明,所提算法不仅保证了SVM在大数据环境下的高并行计算能力,SVM的分类准确度也有明显提高,并且具有更好的泛化性能。  相似文献   

9.
针对在特殊工艺约束下,非等同并行多机总完工时间最小和总拖后惩罚最小双目标调度问题(BOSP),设计了一个双目标调度模型,进而构造了一个基于向量组编码的遗传算法。此算法的编码方法简单,能有效地反映实际调度方案,收敛速度快。同时为了更好地适应调度实时性和解大型此类问题的需要,在基于遗传算法自然并行性特点的基础上,实现了主从式控制网络模式下并行遗传算法。仿真结果表明,此算法是有效的,优于普通的遗传算法,具有较高的并行性,并能适用于解大型此类调度问题。  相似文献   

10.
提出一种在数据缺失下增量学习贝叶斯网络的有效算法IBN—M。IBN—M用结构化的EM算法来补全数据集中缺失的数据,并且能在并行和启发式搜索策略提供的较大的搜索空间里搜索,有效地避免了采用结构化EM算法而导致的局部极值。同时采用增量学习的方法,解决了大规模数据学习存在的内存空间不足的问题。实验结果表明IBN-M算法在数据缺失下贝叶斯网络的增量学习中确实能够学出相对精确的网络模型。  相似文献   

11.
ETL工作流活动优先级的确定及并行实现*   总被引:1,自引:0,他引:1  
ETL流程是一个以数据为中心的工作流,对ETL工作流的执行过程进行论述,提出了一个算法,计算ETL工作流中各个活动的执行优先级,在工作流执行中为优先级相同且相互之间没有依赖关系的活动集创建多个线程,通过并行执行这些活动,提高了ETL工作流的执行效率。实验结果表明,所提出的并行算法与串行算法比较,在数据量足够大的情况下,加速比可接近理想值,加速比随着数据量增大而提高。  相似文献   

12.
在数据生产速度波动较大的场景,为了实时ETL资源利用更合理,提出基于稳定匹配的ETL弹性调度机制.预测数据源的数据生产速度,并计算满足预测值的消费数据速度;使用贪婪负载均衡算法,调整ETL服务个数使节点负载均衡;确定ETL操作匹配关系,使消费数据速度最大且代价最小.该调度机制将匹配问题转化为最小费用最大流问题,并提出基...  相似文献   

13.
颜一鸣  郭鑫 《计算机工程》2014,(3):67-70,92
为适应真实环境中数据量大、流程复杂、计算密集的数据挖掘需求,提高传统树增量更新挖掘效率,改变已有算法的串行执行方式,提出一种基于Hadoop的动态树增量更新方法。介绍云计算、模型与执行流程等基本概念,针对现有Hadoop平台中任务调度的随机分配策略,设计一种动态云平台中的资源调度与分配算法,以期达到成本消耗的最小化,给出树增量更新挖掘算法以及2个并行算法(DeleteFreqTree和FindNewTree),完成树数据的增量挖掘工作。实验结果表明,该并行算法有效可行,具有高效性与良好的扩展率,能够对海量树数据进行更新挖掘。  相似文献   

14.
针对目前大数据快速增加的环境下,海量数据的频繁项集挖掘在实际中所面临的增量更新问题,在频繁项超度量树算法(frequent items ultrametric trees,FIUT)的基础上,引入MapReduce并行编程模型,提出了一种针对频繁项集增量更新的面向大数据的并行算法。该算法通过检查频繁超度量树叶子节点的支持度来确定频繁项集,同时采用准频繁项集的策略来优化并行计算过程,从而提高数据挖掘效率。实验结果显示,所提出的算法能快速完成扫描和更新数据,具有较好的可扩展性,适合于在动态增长的大数据环境中进行关联规则相关数据挖掘。  相似文献   

15.
OpenMP作为共享存储并行编程标准,以其良好的易用性、支持增量并行等特点成为并行程序设计的主流模型之一.OpenMP标准是针对UMA共享存储结构制定的,其循环调度机制只考虑了负载平衡而无须考虑数据分布.然而在机群OpenMP系统中,数据局部性是影响性能的关键因素.针对OpenMP标准中静态调度策略不适合机群计算的缺点,提出了一个充分体现拥有者计算原则的LBS调度算法,并通过扩展制导的方式在机群OpenMP系统(OpenMP/JIAJIA)上加以实现.测试结果表明,LBS算法对于机群OpenMP系统很有效.  相似文献   

16.
In this paper, a heuristic dynamic scheduling scheme for parallel real-time jobs executing on a heterogeneous cluster is presented. In our system model, parallel real-time jobs, which are modeled by directed acyclic graphs, arrive at a heterogeneous cluster following a Poisson process. A job is said to be feasible if all its tasks meet their respective deadlines. The scheduling algorithm proposed in this paper takes reliability measures into account, thereby enhancing the reliability of heterogeneous clusters without any additional hardware cost. To make scheduling results more realistic and precise, we incorporate scheduling and dispatching times into the proposed scheduling approach. An admission control mechanism is in place so that parallel real-time jobs whose deadlines cannot be guaranteed are rejected by the system. For experimental performance study, we have considered a real world application as well as synthetic workloads. Simulation results show that compared with existing scheduling algorithms in the literature, our scheduling algorithm reduces reliability cost by up to 71.4% (with an average of 63.7%) while improving schedulability over a spectrum of workload and system parameters. Furthermore, results suggest that shortening scheduling times leads to a higher guarantee ratio. Hence, if parallel scheduling algorithms are applied to shorten scheduling times, the performance of heterogeneous clusters will be further enhanced.  相似文献   

17.
王泽武  孙磊  郭松辉 《计算机应用》2017,37(10):2780-2786
针对当前云任务调度算法在密码云环境中无法实现任务实时处理的问题,提出一种基于滚动优化窗口的实时阈值调度方法。首先,将密钥调用环节融入密码任务流程中,提出一种密码云服务架构;其次,为实现任务的实时调度,构建基于滚动窗口的密码任务调度器模型和吞吐量分析模型,用于获得实时的吞吐量数据;最后,为满足云租户对高速密码服务的客观需求,提出吞吐量阈值调度算法,从而根据实时吞吐量相对于吞吐量阈值的变化情况实时迁移虚拟密码机。仿真结果表明,该方法与未采用滚动优化窗口或虚拟机迁移技术的方法相比,具有任务完成时间短、CPU占用率低的特点,且实时吞吐量能够持续保持在网络带宽的70%~85%,从而验证了其在密码云环境中的有效性和实时性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号