首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 21 毫秒
1.
Hadoop是业界领先的大数据应用平台,是一个利用整个集群资源为大数据集合提供分布式存储和分布式计算处理能力的软件框架。本文讲述Hadoop在中国移动手机阅读BI系统中的应用实例,从而给出一种大数据处理方案的推介。  相似文献   

2.
电信信息化系统间数据交互频繁,各个边界系统间经常需要进行大量的数据正确性稽核。文章从数据建模和系统架构方面介绍了一种基于分布式处理框架、分布式缓存和分布式数据存储组件的高性能通用数据稽核系统建设方案。该方案采用了移动互联网时代的最流行的开源技术框架,期望通过新模式的引入使得传统电信信息化系统在移动互联网时代转型过程中焕发巨大能量和活力。  相似文献   

3.
如今,随着不断增加的大数据解决方案需求,Apache Hadoop已经迅速成为存储和处理海量结构化和非结构化数据的首选平台之一。企业只需在少量基于英特尔至强处理器的服务器上部署这种开源软件框架,就可用较低的成本迅速开始进行大数据分析。随后可逐步将其Apache Hadoop集群扩展到数百乃至数千个节点,从而将多PB数据的查询响应时间缩短到次秒级。英特尔与Apache Hadoop社区开展协作,支持系统管理员尽可能地实现其Apache Hadoop集群的高性能,  相似文献   

4.
《现代电子技术》2016,(10):18-20
Hadoop大数据平台上可以搭建Yarn,Mahout,Storm,Graph Lab等框架,其提供了大数据的各种处理能力。但它们各自按自己的机制工作,整合度极低。虽然在Mahout框架中,对机器学习的算法支持较为完善,但是数据必需是离线的。在大数据时代,要求不仅具有处理能力,还强调了数据的时效性,以前的框架都显得有点力不从心。Spark是Hadoop平台上的新型利器,它的各个部分几乎能替代以前的分散的框架,且采用统一的处理机制,整合度很好,速度比传统处理方式快几十倍甚至几百倍。基于Hadoop平台的Spark快数据推荐算法分析与应用是在Hadoop平台上用Yarn作资源管理,Spark作快数据的处理,这极大地提高了大数据的处理效率。该文以专业推荐系统为应用基础,采用Yarn作资源管理,及Spark ALS算法做推荐,Spark Page Rank算法做专业排名,实验结果表明,Spark框架对大数据的处理机制能够满足日益增值的大数据应用对速度的要求。  相似文献   

5.
深入研究数据质量管理理论,形成了电信企业数据质量的定义、度量、分析与改进的闭环管理框架,探讨了电信企业开展数据稽核的方案,并构建了数据质量管理与稽核系统,实现了数据质量管理与稽核全过程的自动化处理.  相似文献   

6.
为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬件架构以及将数据从现有数据库抽取、转换和加载到数据仓库的方案。特别是针对系统归档数据的存储和分析需求,根据实际应用场景设计一个基于HBase的存储解决方案。在系统部署完成后,进行了吞吐量测试,并与当前使用的传统数据库进行性能对比。测试结果显示,基于Hadoop的数据仓库系统在海量数据存储、高性能查询以及数据分析处理方面都表现出明显的优势。这一改进为加速器控制系统提供了更强大的数据管理和处理能力,有望为加速器在未来的发展提供更多可能性。  相似文献   

7.
网络日志解析是确保监控系统稳定运行和检测故障的重要任务之一。然而,日志文件的数据量庞大,数据格式也相对复杂,难以手动处理。在此背景下,对基于Hadoop分布式计算框架的网络日志分析系统的设计和实现进行了研究,通过将数据分解成块,并通过多台计算机并行处理数据块来提高数据处理速度和效率。系统使用了Hadoop的MapReduce编程模型来实现网络日志数据的解析和处理。实验结果表明,相比传统方法,该系统具有更高的数据处理速度和可伸缩性,证明其有效性和实用性。  相似文献   

8.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。  相似文献   

9.
高小普  万麟瑞 《电子科技》2013,26(4):155-157
传统的数据分析方法和相关BI数据分析软件面对海量电信数据已显得力不从心。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可扩展的优点,被广泛应用于云计算领域。文中在对云计算和Hadoop进行分析和研究的基础上。介绍了Hadoop技术及业界的一些典型应用案例,提出了Hadoop未来可以应用在电信业BI系统中的一些场景,并进行了探讨和研究。  相似文献   

10.
文中在频繁项目集挖掘研究的基础上,针对Hadoop分布式计算框架,提出了一种基于子集的Apriori并行改进算法Sub Apr。该算法扫描数据库两次,将分块数据分配给不同的Hadoop计算节点进行处理,利用Apriori特性并结合MapReduce框架自身特点进行剪枝。该算法与同类算法比较,可以减少各个计算节点的存储数据,达到减少候选项集输出,有效减少了大数据集挖掘过程中产生的大量数据通信,从而提高并行挖掘的效率。实验结果表明,该算法是有效且可行的。  相似文献   

11.
Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础,详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台,经过测试,本系统能正常运行MapReduce化的分布式程序,本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应用程序开发提供了基础。  相似文献   

12.
杨博 《信息通信》2016,(4):18-19
互联网时代已经来临,面对大规模数据的处理,传统计算机技术已跟不上步伐,文章引入了开源云计算系统Hadoop(一种分布式计算平台),利用Mapreduce编程模式对互联网中经常涉及的大规模矩阵乘法的算法理论进行了相关研究,并对Hadoop相关技术领域的应用做了展望。  相似文献   

13.
张燕丽 《电子测试》2014,(23):115+102
本文借助云平台Hadoop的分布式文件系统(HDFS)和分布式并行计算框架(Map Reduce),来进行海量数字图像的数据挖掘。构建了基于Hadoop云平台的海量数字图像数据挖掘系统,实现海量数字图像信息数据挖掘。  相似文献   

14.
分析Apache开源框架Nutch和Hadoop的系统结构,利用Nutch和Hadoop设计高效、可靠、可扩展的分布式搜索引擎,来解决搜索引擎对海量数据的处理和存储问题。  相似文献   

15.
Hadoop是Apache基金会所开发的支持涉及数千个节点和海量数据的分布式计算的高级项目。它是一个开源免费的软件框架,受到谷歌的MapReduce和谷歌文件系统(GFS)的启发,由Java语言实现,全球的开发志愿者共同对它进行完善。Hadoop的子项目包括HDFS,MapReduce,HBase,Hive等。HDFS是一个分布式文件系统,提供高吞吐量的应用数据接口使得Hadoop具有很好的性能。MapReduce是一个软件框架,它执行涉及海量集群数据的分布式计算的MapReduce算法。尽管Hadoop被广泛使用,但它仍然存在一些影响性能的缺陷,对于小文件的处理能力就是其中缺陷之一。档案文件(Hadoop Archives)和序列文件(sequence files)是两种现有的改善小文件处理问题的解决方案,但它们仍然有各自的不足,提出一个解决方案,保留它们的优点使Hadoop在处理小文件上拥有更好的性能。  相似文献   

16.
随着重复数据删除次数的增加,系统中用于存储指纹索引的清单文件等元数据信息会不断累积,导致不可忽视的存储资源开销。因此,如何在不影响重复数据删除率的基础上,对重复数据删除过程中产生的元数据信息进行压缩,从而减小查重索引,是进一步提高重复数据删除效率和存储资源利用率的重要因素。针对查重元数据中存在大量冗余数据,提出了一种基于压缩近邻的查重元数据去冗算法Dedup2。该算法先利用聚类算法将查重元数据分为若干类,然后利用压缩近邻算法消除查重元数据中相似度较高的数据以获得查重子集,并在该查重子集上利用文件相似性对数据对象进行重复数据删除操作。实验结果表明,Dedup2可以在保持近似的重复数据删除比的基础上,将查重索引大小压缩50%以上。  相似文献   

17.
传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构建了Hadoop分布式财务异常数据分析模型。该模型采用Hadoop中的MapReduce框架作为并行计算框架,同时在数据异常检测算法方面引入了邻域关系的LOF算法,有效避免了数据集元素边缘可能会出现误判的情况。数值实验结果表明,文中所提算法的准确率相比其他3种同类算法提升了5%以上,且算法的总运行时间也明显缩短。由此可见,文中所提模型可快速、准确地检测出财务异常数据,保障医疗系统的平稳运行。  相似文献   

18.
Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,根据反馈的任务完成时间信息,动态更新节点的能力比例,自适应调整数据分配,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间的数据移动量,提高了节点利用率。实验结果表明,该策略能够有效缩减任务完成时间,提高了系统的整体性能。  相似文献   

19.
负载均衡技术作为大数据存储技术的核心,其直接关系到构建的大数据存储系统的效率和稳定性,文章以Hadoop大数据存储系统平台为例,提出了一种高效的大数据存储系统负载均衡算法,该算法在传统的Hadoop存储系统负载均衡的算法基础上,通过增加了考虑优先级处理超负载的策略,对系统中的超负载的机架进行有限平衡处理,以解决传统的Hadoop存储系统负载均衡算法对处理超负载机实时性低,导致系统节点崩溃详细的问题,可以有效地提高整个基于Hadoop架构的大数据存储系统的稳定性和数据存储效率。  相似文献   

20.
各种信息数据在迅猛增长,云计算技术的出现为海量数据的处理提供了良好的解决方案。Hadoop 是云计算技术中分布式并行编程框架的开源实现,它利用集群的并行计算和存储能力,高效的完成对海量数据的处理,云计算能够为社会创造出更大的价值。最后通过Hadoop组织廉价的计算机资源搭建了一个分布式云计算平台,具有高容错、高效性、高扩展性等优势,并完成对数据处理能力和平台可扩展性进行性能测试与分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号