首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
刘豹 《软件》2013,(10):73-77
传统的ETL工具有集中执行、对服务器性能要求高等缺点,针对这些缺点,本文提出了一种基于Hadoop的分布式ETL系统。该系统在分布式文件系统基础上,利用相应的数据过滤器和Hadoop强大的并行处理能力,实现了集群分布式执行ETL流程。该分布式ETL系统具有较高的可扩展性和吞吐效率,同时能够自动实现负载均衡,执行效率高。  相似文献   

2.
设计并实现了一个基于Hadoop集群的分布式入侵检测系统(HDIDS)。该系统实现了数据采集的分布化,数据存储的分布化和数据分析的分布化。有效地克服单点失效问题以及数据处理能力的瓶颈问题。  相似文献   

3.
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。  相似文献   

4.
针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——M DETL(MapReduce Distributed ETL).该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执行ETL流程,从而提高了整个ETL系统的灵活性和吞吐率,并具有较好的可扩展性和负载平衡性能,提高了执行效率.  相似文献   

5.
在新媒体视频业务快速发展的今天,传统单机视频转码能力已经出现瓶颈. 在Hadoop云计算平台的研究基础上,结合当前主流的音视频处理工具FFmpeg,提出了一种新的视频转码方案. 该方案通过使用Hadoop两大核心:HDFS(Hadoop Distributed File System)和MapReduce编程思想,进行分布式转码. 同时,还详细地介绍和设计了分布式转码的具体流程. 最后实验结果表明,该分布式转码方案在效率上有较大提高. 在实验中,视频的分段大小也影响着视频转码的时间. 随着分段大小从小到大,同样的视频转码时间变化却是由高降低再升高. 从实验数据来看,相对于其他的分段,分段大小为32M的时候,转码时间最佳.  相似文献   

6.
宋杰  郝文宁  陈刚  靳大尉  赵成 《计算机科学》2013,40(Z11):263-266
针对MapReduce缺少对ETL上层数据模型的具体描述,提出了一种集成的基于MapReduce的分布式ETL(MapReduce Distributed ETL,简称MDETL)多维数据模型处理方法其,把对数据的处理分解成对数据属性(维和事实)的处理,解决了ETL上层具体数据模型的构建问题。用真实的数据集评估了它的性能,实验结果表明MDETL具有很好的可扩展性。  相似文献   

7.
针对人脸识别算法研究过程中测试效率低下的问题,基于分布式技术,设计并实现了通用的分布式大数据测试平台。为了提高人脸识别算法的大数据测试的执行效率,提高测试结果统计计算的执行效率,基于RabbitMQ设计分布式并行执行架构,利用Hadoop集群的MapReduce框架进行分布式并行计算。利用Java语言的Spring框架开发测试平台,将测试代码与测试图片托管于Hadoop集群的HDFS文件系统,实现了测试业务与测试平台的分离,提高了平台的通用性。该测试平台不仅实现了单个测试任务的分布式执行而且满足多个测试任务同时执行,可对测试任务以及测试相关的代码与数据进行有效的管理。与传统测试方法相比,该平台测试效率提高10余倍,测试图片的数量越大测试效率提升越明显。该测试平台具有业务通用性、容量可扩展性,对于其他人工智能算法的大量数据测试具有借鉴意义与参考价值。  相似文献   

8.
一种改进的分布式ETL体系结构   总被引:1,自引:0,他引:1  
在分析了分布式数据仓库数据一致性维护的重要性,以及目前分布式ETL(Extract,transform and load)中存在问题的基础上,针对传统ETL体系结构对分布式数据仓库一致性维护的不足,提出一种新的分布式ETL的体系结构ETLM,并详细描述了数据一致性维护模块(M模块)的设计与实现。ETLM的体系结构免去了分布式数据仓库需要专门进行一致性维护的额外负担,可以更加正确、快捷、高效地支持OLAP。  相似文献   

9.
当下由于视频内容多样化的爆发式变革,产生了多种音视频封装格式和编码格式,为解决用户高清视频多端下载收看及相应格式转换需求,应对庞大的数据量计算作业,需整合高效计算机资源。该文提出了一种基于Hadoop的分布式视频转码方案,采用分布式文件存储系统HDFS进行大型视频文件的存储,通过MapReduce编程框架结合FFmpeg开源软件,将视频数据处理划分为Map和Reduce两个阶段,把庞大的数据量分布到多处理节点分析。调用转码模块,减少开发人员工作量,分布式完成视频转码功能。该方案充分利用了数据集群的并行计算能力,突破了单机视频转码技术的发展瓶颈。通过实验验证得出,相比于单一节点进行视频转码,此系统的转码速度仅在2台数据节点的分布式集群中就获得了50%的提升。通过此系统可以为各类终端用户按各自需求提供易于使用、开放便捷、快速高效的视频转码服务。  相似文献   

10.
针对云计算中的虚拟化、分布式存储与并行编程模型等问题,提出基于云计算的多电站计算平台的体系结构,实现电站数据中心的可靠存储与快速并行处理。详细讨论了传统的电站计算平台在数据存储和数据处理过程中的不足,设计了基于 Hadoop 的电站数据中心云计算平台,并利用 Hadoop 云计算平台对数据检索的效率进行实验比较分析。  相似文献   

11.
随着大数据的发展,分布式支持向量机(SVM)成为该领域研究热点.传统层级分布式SVM算法(Cascade SVM),在Hadoop平台下寻找全局最优支持向量的过程十分缓慢.本文提出了一种改进方法,先将传统的网格法与粒子群(PSO)算法结合,改进了单机PSO算法,再将单机PSO算法与Hadoop平台结合实现了一种新型卫星并行PSO算法(NPP-PSO).实验结果表明,相比于单机SVM算法,本文的分布式SVM算法,在保证了准确率的前提下大幅提高了计算速度;而使用NPP-PSO参数寻优后的分布式SVM,分类准确率相比于分布式SVM算法又有了明显提高.  相似文献   

12.
为了解决单节点上大矩阵相乘运算量过大的问题,提出了一种基于分布式平台Hadoop的矩阵相乘算法.算法采用了字节文件作为输入以及最优化的分片方式,去掉了不必要的Reduce过程,极大地减少了输入数据量,拥有简洁的算法流程和可拓展性.实验结果表明该算法很好地解决了矩阵相乘运算量过大的问题,当输入数据量接近集群最佳负载量的情况下取得了很好的加速比.  相似文献   

13.
中国科学院计算机网络信息中心与青海湖保护区管理局合作,共同建设了青海湖野外网络视频监控。如何高效地处理每天产出的超过 100GB 的视频数据成为了一个难题。现在的视频处理系统采用计算和存储相分离的架构,这需要配置较高的专门服务器进行支撑,本文基于廉价扩展性能较好的 Hadoop 平台对视频处理做出了分布式的实现,并对单个视频文件做出了分布式转码的实现。同时,本文将基于 Hadoop 的分布式视频处理的实现和基于 HTCondor 的分布式视频的批处理实现进行了对比,实验证明,在不损失视频处理效率的条件下,基于 Hadoop 的分布式视频处理的实现拥有分布式文件系统支撑、完善的任务监控等优势。  相似文献   

14.
随着数据仓库技术的应用发展,企业对数据的处理要求更短的延迟,具有一定的实时需求,而目前的大部分系统都不具备该特性。提出了一种基于ESB平台的实时ETL解决方案,通过在ESB平台上运行的组件实现ETL功能,利用实时分区加载和更新实时数据。实验表明,该设计方案能够实现实时ETL功能,并具有良好的通用性和可扩展性。  相似文献   

15.
随着局域网内数据信息量的日益增多,如何对不断增加的海量数据作出筛选分类、分析与存储,成为企业数据管理、业务开展关注的重要问题,而依托于Hadoop分布式架构的云存储技术,构建起分布式文件管理的云服务系统,可保证数据存储与管理的合理数据块分布、功能可拓展性。基于此,通过围绕MapReduce集群、HDFS文件存储、HBase数据库,以及PC主机、VMWare虚拟机等软硬件,建立起云存储服务管理系统,可针对大文件、小文件存储的问题,设置文件索引、读写、合并、缓存等的功能服务模块,提供一种按需服务的应用方式,实现对特定数据的预读取、检索、合并与存储,提高Hadoop分布式集群系统的数据读取、索引与存储效率。  相似文献   

16.
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。  相似文献   

17.
随着社交网络的快速发展,海量社交网络的数据挖掘成为一个重要课题;针对海量数据的社交网络分析方法进行研究,以Hadoop的分布式文件系统和Map/Reduce并行方法设计基于Hadoop的分布式数据挖掘框架,在此基础上,通过Map/Reduce的并行方法,将传统数据挖掘算法并行化,以谱聚类的并行为例,阐述转化的过程并对在大数据条件下所面临的内存不足的问题给出相应的算法优化;最后对3个不同量级的数据集进行实验,验证基于Hadoop的社交网络分析平台的框架的合理性和算法并行化的有效性。  相似文献   

18.
文章在深入研究了基于Hadoop平台的数据挖掘技术、框架构建和SPRINT算法,然后以此为基础探讨了数据挖掘的要求,从而构建出了以Hadoop平台为基础的数据挖掘系统,在构建大数据集的过程中使用了MYSQL系统,并分析和测试了系统的效率.经实践和测试发现,该系统在经过了算法的改进后,数据处理的时间大大减少了,因此整体的系统效率得到了提升.  相似文献   

19.
分布式ETL负载均衡策略研究   总被引:1,自引:0,他引:1  
在分析分布式ETL中负载均衡重要性的基础上,针对传统ETL应用于分布式数据仓库中效率低的缺陷,提出一种根据ETL节点所抽取的数据类型不同对分布式ETL节点抽取的数据进行分割的策略,以及一种新的负载均衡模型—链网模型和Routers相结合的R-CN模型。在此基础上提出一种基于ETL数据分片和R-CN模型相结合的分布式ETL节点负载调度和均衡策略。此策略使ETL节点的数据处理能力有了很大的提高,有效地提高了分布式ETL的效率。  相似文献   

20.
基于Hadoop的测试数据处理系统设计与实现   总被引:2,自引:0,他引:2  
提出一种基于Hadoop软件框架进行海量测试数据处理的解决方案。在深入研究Hadoop分布式系统构架、HDFS分布式文件系统以及Map Reduce分布式编程模型的基础上,设计并实现了二进制测试数据文件到HDFS的传输机制以及基于Map Reduce的测试数据分布式格式转换系统。最后搭建实验环境,验证了整个系统的正确性并对分布式格式转换系统进行性能评估。与本地单机相比,系统在处理海量数据时具有更高的效率及更好的可拓展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号