共查询到20条相似文献,搜索用时 209 毫秒
1.
2.
3.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。 相似文献
4.
大数据解决方案必须面对三个核心的问题,即大数据的存储、分析以及管理.文章主要论述了Hadoop生态系统是怎样处理的,大数据的定义以及Hadoop生态系统的含义. 相似文献
5.
Hadoop是业界领先的大数据应用平台,是一个利用整个集群资源为大数据集合提供分布式存储和分布式计算处理能力的软件框架。本文讲述Hadoop在中国移动手机阅读BI系统中的应用实例,从而给出一种大数据处理方案的推介。 相似文献
6.
个人健康信息服务系统作为现代医院健康管理系统的一个重要分支,在整个医疗系统中起着十分重要的作用.本文论述了通过Hadoop大数据平台构建了一种个人健康信息管理的方法,设计并且实现了一套基于Hadoop的个人健康信息管理系统.Hadoop作为一种日趋成熟的大数据平台,与医疗信息化相结合,为个人医疗中产生的数据提供了一种安全可靠的存储途径,实现医疗数据的集中管理.本系统利用Hadoop平台适合海量数据的运算与存储的特点,建立了个人健康信息数据中心,实现对患者健康信息最完整、最准确的管理. 相似文献
7.
传统的关系型数据库架构在应对电信运营商海量的大数据处理时建设成本高昂,处理能力低下,已经无法满足在大数据场景模式下的新型业务需求。Hadoop云计算平台作为一种新型的大数据处理方案,充分利用其低价格和高性能的优势,可以满足海量数据存储及数据处理功能。文章在对Hadoop技术介绍的情况下,设计一套基于Hadoop架构的数据查询平台,实验证明,该平台能够有效提高数据处理效率,降低建设成本。 相似文献
8.
9.
随着互联网应用的飞速发展和信息的社会化数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展·陆的瓶颈,通过介绍目前大数据时代面临的挑战,分析了大数据对IT系统的挑战以及针对大数据业务特点的应对策略。目前犬数据技术目前还没形成统一标准,但业界已经广泛使用Hadoop分布式系统作为其大数据处理平台,对大数据环境下Hadoop分布式系统进行了详尽的研究与设计,包括分布式文件系统、并行计算模型、分布式数据库、分布式锁服务等各个功能模块,大数据环境下的Hadoop分布式系统将更有效支撑未来电信运营商业务的发展。 相似文献
10.
11.
12.
13.
CPS深度融合了计算、通信、控制技术,实现了对物理世界实体感知、通信、计算和控制过程.TCPS是CPS在交通领域的应用,是新一代智能化交通管理的解决方案.TCPS大数据是交通物理世界实体的感知信息,是所有后续决策制定的基础,是交通智能化管理的关键.本文研究了CPS、TCP以及Hadoop平台的技术原理,分析了TCPS大数据处理的关键问题,提出一种基于Hadoop的交通信息物理系统大数据架构平台的解决方案,设计了基于Hadoop的TCPS大数据平台架构,讨论了基于MapReduce的TCPS大数据挖掘方法和流程,为下一阶段的智能化交通管理系统建设提供技术支持. 相似文献
14.
Docker是Paas提供商dotcloud公司研发的一个基于LXC的高级容器引擎,具有一次构建,到处运行优势。当前在Hadoop技术的发展中,如何把Docker技术应用于Hadoop平台的建立,尤其是对于Hadoop on Docker规模部署问题的解决,一直是一个备受关注的技术难点。针对以上问题,文章提出基于Docker的一键部署Hadoop7层解决方案,首先从Docker环境部署入手,简要介绍了镜像部署以及容器部署的过程,重点分析并实现了Hadoop集群(HDFS+YARN)的一键部署方法,并通过bind mounts(绑定挂载)方式解决了集群数据存储问题,给出关键脚本代码的实现过程。实践表明,Hadoop on Docker规模一键快速部署具有灵活方便、开销小、效率高、可扩展性强等优势,提高了Hadoop大数据技术学习和生产环境部署效率。 相似文献
15.
大数据技术发展与开源运动的结合已成为大数据技术创新中的一个鲜明特点。目前,大数据分析处理流程中所使用的关键技术几乎都源自开源模式,知名的大数据开源项目如分布式计算和存储系统Hadoop、基于内存计算的集群计算系统Spark,以及多款非关系型数据库(NoSQL)产品等。文章对Hadoop、Spark等知名大数据开源项目进行分析和解读,为读者开展大数据应用提供技术参考和支持。 相似文献
16.
《电子技术与软件工程》2016,(17)
在Hadoop云平台进行数据云存储系统的优化设计,提高大容量数据快速存取能力,构建基于Hadoop的大容量数据快速存储系统,采用负载均衡调度和云存储优化方法进行存储系统构架,进行Hadoop云平台的海量大数据进行信息融合处理,对Hadoop云平台大容量数据信息流进行非线性时间序列重组,采用特征空间降维方法降低存储开销,优化存储结构,提高存储和调度的速度。仿真结果表明,采用该方法进行Hadoop大容量云存储系统设计,提高了数据存储的吞吐性能和快速存取性能。 相似文献
17.
Hadoop应用研究主要包括云存储,数据查询,数据分析,数据挖掘,关联广告等,不同的Hadoop应用对机器的资源要求不同,主要分为CPU、内存、I/O、网络密集型任务。传统的Hadoop集群在物理机上任务会比较密集,各种应用只能排队依次处理,机器的CPU、IO和存储会非常繁忙,负载不均衡。虚拟化Hadoop可以帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据资源调度。本文提出一种动态规划算法动态调度资源,在虚拟化后的Hadoop集群可以把不同的资源要求的应用单独分开放在不同的物理机上并行高效地处理,从而大大提高Hadoop集群的性能。 相似文献
18.
针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,因此提出一种基于Hadoop平台的并行kNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题.对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类. 相似文献
19.
《信息技术》2016,(9):93-95
互联网+时代,信息交流和社交方式都发生了极大的变化,自媒体的数据产生方式让大数据时代加速到来。Hadoop云计算实现框架是大数据管理中最优的解决方案,使用最为广泛,效果最为明显。文中针对运用云计算和云平台Hadoop的知识,对现有数据挖掘技术中的关联规则进行分析,对经典Apriori算法进行梳理并提出了一种基于MapReduce的改进Apriori数据挖掘算法。最后,通过Hadoop平台进行仿真实验,算法用Java实现,通过对训练数据迸行挖掘,结果表明改进算法在处理大数据时空间复杂度更低,且挖掘时间随着数据规模的增大呈线性增长。实验结果表明,改进算法在进行大数据挖掘比经典算法有了性能的提升。 相似文献