共查询到20条相似文献,搜索用时 31 毫秒
1.
传统的数据分析方法和相关BI数据分析软件面对海量电信数据已显得力不从心。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可扩展的优点,被广泛应用于云计算领域。文中在对云计算和Hadoop进行分析和研究的基础上。介绍了Hadoop技术及业界的一些典型应用案例,提出了Hadoop未来可以应用在电信业BI系统中的一些场景,并进行了探讨和研究。 相似文献
2.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。 相似文献
3.
4.
5.
6.
MapReduce是由并行编程模型及相关支撑系统组成的数据处理框架,通过定义接口和运行时支持库,通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,通过隐藏底层实现细节,降低实现并行编程的难度,Hadoop是目前MapReduce框架最流行的开源实现.文章首先介绍了MapReduce并行编程模型及其hadoop的运行原理、运行机制,深入研究了MapReduce计算任务在Hadoop系统中的运行过程. 相似文献
7.
张国锋 《智能计算机与应用》2018,(4):103-105,111
相对传统的分布式数据库和数据仓库技术,Hadoop和MapReduce技术以其简单性、良好的可扩展性和容错性成为当前大规模数据处理的主流技术之一.而Hive等软件产品在Hadoop基础上实现了与关系数据库的接口模式,从而进一步改善了Hadoop的易用性.数据存储使用Hadoop分布式存储,使用Hive特有的数据库语言HiveQL实现数据的查询以及分析操作.最后使用Java JFreeChart实现结果可视化,将结果以柱状图的形式显示出来.由于使用Hadoop作为基础,数据的查询分析速度更快,能够更好地与系统后台对接,方便管理者操作. 相似文献
8.
网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点.面对数亿网民和浩如烟海的网络言论,网络舆情的监测和分析越来越依赖舆情大数据分析技术与平台.大数据的相关技术目前应用最成熟的是由Apache基金会提出的Hadoop解决方案,将Hadoop技术应用于网络舆情分析系统,可以有效适应海量数据的处理需要. 相似文献
9.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。 相似文献
10.
11.
12.
13.
随着移动互联网的快速发展,运营商的核心战略转向以智能管道为基础的流量经营。本文在对Hadoop平台和流量经营分析系统进行分析的基础上,提出了一种基于Hadoop平台的流量经营分析系统实现方案,以期有助于提升运营商的流量内容研究能力和智能营销支持能力,避免“量收剪刀差”的不断拉大。 相似文献
14.
常海防 《电信工程技术与标准化》2014,(7)
随着移动互联网的快速发展,运营商的核心战略转向以智能管道为基础的流量经营。本文在对Hadoop平台和流量经营分析系统进行分析的基础上,提出了一种基于Hadoop平台的流量经营分析系统实现方案,以期有助于提升运营商的流量内容研究能力和智能营销支持能力,避免"量收剪刀差"的不断拉大。 相似文献
15.
大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结果。本文基于Hadoop云计算平台,采用MapReduce技术对SVM网络流量分类器进行分布式学习和训练,构建CloudSVM网络流量分类器。通过对来自校园网出口镜像的近2 T的大规模网络流量的跟踪文件的分布式存储和处理,对抽取的样本数据集进行分类,实验验证了基于Hadoop平台分布式存储和并行处理大规模网络数据集的高效率性,也验证了CloudSVM分类器在不降低分类准确度的情况下可以快速收敛到最佳,并随着大规模网络流样本的增加,SVM分类器训练的时间趋近平稳。 相似文献
16.
17.
基于Docker的Hadoop集群网络性能分析 总被引:1,自引:0,他引:1
《信息技术》2018,(2):15-18
针对Hadoop从网络的角度来研究提高Hadoop性能的方法不足的问题,提出了一个通过相关工具,根据不同的网络配置,在虚拟化环境Mininet下监测并分析Hadoop集群的网络特性的系统框架。本系统建立一个在Docker容器内运行的Mininet的Hadoop集群,按照不同的需求,通过配置Mininet方便地修改网络拓扑结构,可以监测容器和虚拟交换机的网络流量,并通过网络流量监视器观察网络行为,分析不同的网络设置对Hadoop性能的影响。实验从集群中没有背景流量、集群中的背景流量无Qo S控制、集群中的背景流量有Qo S控制,三个方面对Hadoop集群网络性能进行了详细分析。 相似文献
18.
随着互联网应用的飞速发展和信息的社会化数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展·陆的瓶颈,通过介绍目前大数据时代面临的挑战,分析了大数据对IT系统的挑战以及针对大数据业务特点的应对策略。目前犬数据技术目前还没形成统一标准,但业界已经广泛使用Hadoop分布式系统作为其大数据处理平台,对大数据环境下Hadoop分布式系统进行了详尽的研究与设计,包括分布式文件系统、并行计算模型、分布式数据库、分布式锁服务等各个功能模块,大数据环境下的Hadoop分布式系统将更有效支撑未来电信运营商业务的发展。 相似文献
19.