共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
随着互联网、移动互联网和物联网的发展,我们已经迎来了数据大爆炸的时代,数据的快速增长带来了数据存储、处理、分析的巨大压力,而大数据技术(Big data)的引入,不但满足了系统功能和性能的要求,带来良好的可扩展性,降低了IT部署的成本,还拓展了数据智能分析的应用领域。同时,大数据分析与云计算的发展密切相关,云计算是大数据处理的基础,而大数据技术是云计算的延伸,云计算的分布式存储和计算架构为大数据的快速处理和智能分析提供了一种合适的解决方案。本文将探讨建立在云计算基础上的大数据处理技术,包括分布式计算框架、分布式文件系统、大数据管理技术、实时流数据处理、机器学习以及可视化技术等。 相似文献
3.
针对传统方法处理物联网中大数据时缺乏可扩展性,提出了基于MapReduce的物联网大数据处理框架,用于实现对各种形式的数据资源,包括结构化、半结构化和非结构化数据的处理,该框架为基于物联网的大数据智能应用提供了技术支持。使用K-最近邻技术来清除噪声数据;使用奇异值分解来降低数据的维数;使用模糊C均值和基于密度的空间聚类的混合技术来处理噪声数据。实验结果表明,所提出的框架具有较好的可扩展性和拟合精度,在IADL活动数据集上的准确率为98.9%。 相似文献
4.
随着信息化水平的不断提高,基于MapReduce的数据分析方法受到越来越广泛的关注。针对大数据集,普通关系型数据库管理系统很难满足实际需求。本文采用MapReduce方法进行大数据分析,并与SQLserver进行性能比较,实验结果显示,较之于sQLserver,MapReduce方法加载时间较小,随着数据集增大,MapReduce方法的性能提升也更好。因此,MapReduce方法具有较好的可扩展性和加速比,适用于大数据处理应用。 相似文献
5.
6.
在简述Hadoop namenode、datanode运行模式的基础上,重点介绍了Hadoop MapReduce的工作机制,并以作业提交、作业初始化、任务分配、任务执行和任务进度更新等流程介绍了Job Client、JobTracker、TaskTracker和HDFS在MapReduce过程中的分工与协作,最后,对云计算作出展望。 相似文献
7.
Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础,详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台,经过测试,本系统能正常运行MapReduce化的分布式程序,本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应用程序开发提供了基础。 相似文献
8.
9.
一前言
1.Hadoop简介
Hadoop作为大数据存储及计算领域的一颗明星,目前已得到越来越广泛的应用,许多世界知名企业如雅虎、Google、淘宝等,都在使用Hadoop进行大数据处理。 相似文献
10.
11.
12.
传统的减法聚类算法时间复杂度高,算法不具有分布式特性,不满足大数据处理的要求.提出一种基于Hadoop的改进减法聚类算法,利用MapReduce模型改进减法聚类执行过程,实现求解邻域半径、初始化密度指标、更新密度指标和划分数据记录等过程的并行化.实验结果表明,同传统的串行算法相比,提出的算法能够对大数据进行快速聚类,同时表现出良好的稳定性与扩展性. 相似文献
13.
14.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。 相似文献
15.
分布式计算技术的发展导致互联网中积聚了一定的信息,如何对这些一定数据展开搜集、筛选以及处理成为一个关键的课题。在此背景下,简单易用的MapReduce已经成为目前专门处理海量数据的、具有高可靠性的、分布式的方式。在大数据背景下,本文以MapReduce计算模式的发展态势为研究对象,着重分析了该模式下的国内外研究现状,并且展望了该领域的发展态势。 相似文献
16.
大数据解决方案必须面对三个核心的问题,即大数据的存储、分析以及管理.文章主要论述了Hadoop生态系统是怎样处理的,大数据的定义以及Hadoop生态系统的含义. 相似文献
17.
无线电监测工作者在日常工作中积累了海量的监测数据文件,如何快速解析处理这些监测数据成为亟待解决的问题.本文首先介绍了 Hadoop大数据分析框架,其次详细介绍了 Hadoop大数据分析平台的分布式部署方法,最后对平台进行验证测试,为高效处理海量无线电监测数据奠定基础. 相似文献
18.
设计并实现了一个基于MapReduce的网络舆情分析系统。系统采用HDFS和HBase双存储机制存储数据。通过实验分析与效果比对,选用MMSeg4j为系统进行中文分词。改进了Canopy—Kmeans算法实现文本自动聚类,提高了系统的聚类准确度及效率。目前,该系统已应用于某部队舆情分析系统中,能够实时发现热点话题、准确把握舆情趋势,为应对舆论危机、制定舆论政策提供了科学系统的信息支持。 相似文献
19.