首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
高小普  万麟瑞 《电子科技》2013,26(4):155-157
传统的数据分析方法和相关BI数据分析软件面对海量电信数据已显得力不从心。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可扩展的优点,被广泛应用于云计算领域。文中在对云计算和Hadoop进行分析和研究的基础上。介绍了Hadoop技术及业界的一些典型应用案例,提出了Hadoop未来可以应用在电信业BI系统中的一些场景,并进行了探讨和研究。  相似文献   

2.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。  相似文献   

3.
随着信息科学技术和移动互联网技术的快速发展,各种信息数据持续呈指数级爆发式快速增长。当今数据分析主要的目标是充分发掘出隐藏在海量数据背后信息,以此来推动各行业稳定持续发展。显然,云计算技术的出现为海量数据挖掘工作提供了便利,在传统单机模式的数据挖掘基础上,Hadoop云计算平台能够将信息数据分片处理,并将数据片分配到各个节点并行处理,大大提高了数据处理的效率。文章详细研究了基于Hadoop云计算平台的模糊聚类算法,充分利用Hadoop云计算平台并行化来解决对大规模海量数据挖掘的问题,并能够为社会经济发展作出贡献。  相似文献   

4.
《现代电子技术》2018,(6):121-124
互联网隐式文本感知技术能够在图像中提取相应文本格式内容,但存在信息吞吐量低、运算速度差等问题。为此,提出基于Hadoop的互联网隐式文本感知技术。引入Hadoop分布式框架,承接互联网隐式文本感知技术,利用隐式文本感知方式,实现图像特征向量生成提取。实验数据表明,设计的基于Hadoop的互联网隐式文本感知技术能够进行高信息的吞吐,实现隐式文本感知提取。  相似文献   

5.
网络爬虫是互联网运行服务的重要组成部分,并为整个互联网、企业内部网和大型门户网站提供搜索和索引.为解决现有爬虫方法在效率方面的问题,本文介绍了Nutch分布式爬虫工作流程及机制,通过分析Hadoop下的Nutch网络爬虫,在Nutch分布式爬虫的参数方面、Hadoop的I/O模型和Nutch分布式爬虫小文件问题三个方面做了相关优化.实验结果表明,优化后的网络爬虫能更有效的爬取网络资源,能在较大程度上提升网络爬虫效率.  相似文献   

6.
MapReduce是由并行编程模型及相关支撑系统组成的数据处理框架,通过定义接口和运行时支持库,通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,通过隐藏底层实现细节,降低实现并行编程的难度,Hadoop是目前MapReduce框架最流行的开源实现.文章首先介绍了MapReduce并行编程模型及其hadoop的运行原理、运行机制,深入研究了MapReduce计算任务在Hadoop系统中的运行过程.  相似文献   

7.
相对传统的分布式数据库和数据仓库技术,Hadoop和MapReduce技术以其简单性、良好的可扩展性和容错性成为当前大规模数据处理的主流技术之一.而Hive等软件产品在Hadoop基础上实现了与关系数据库的接口模式,从而进一步改善了Hadoop的易用性.数据存储使用Hadoop分布式存储,使用Hive特有的数据库语言HiveQL实现数据的查询以及分析操作.最后使用Java JFreeChart实现结果可视化,将结果以柱状图的形式显示出来.由于使用Hadoop作为基础,数据的查询分析速度更快,能够更好地与系统后台对接,方便管理者操作.  相似文献   

8.
网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点.面对数亿网民和浩如烟海的网络言论,网络舆情的监测和分析越来越依赖舆情大数据分析技术与平台.大数据的相关技术目前应用最成熟的是由Apache基金会提出的Hadoop解决方案,将Hadoop技术应用于网络舆情分析系统,可以有效适应海量数据的处理需要.  相似文献   

9.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。  相似文献   

10.
传统的数据分析方法面对海量电信数据存在管理和分析难的问题.Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域.本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法,建立了基于Hadoop的海量电信数据云计算平台.实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率.  相似文献   

11.
Chukwa是Hadoop软件家族成员的一员,是一个分布式系统,应用于大规模集群的数据收集上,构建在Hadoop的HDFS和MapReduce框架之上。文章通过对数据日志的采集、存储、分析和展示,为用户提供全面、灵活、可视化的服务,弥补了MapReduce对大量日志文件处理能力不足的弱点。  相似文献   

12.
武娟  黄海  钱锋  李拥军  寿质彬 《电信科学》2012,28(12):83-87
分析了云计算平台Hadoop负载均衡机制,针对Hadoop系统自带的均衡器要预先输入阈值才能运行的不足,通过多变量动态估计阈值对其进行优化与实现,依据集群磁盘空间负载情况和集群繁忙程度,动态估计均衡器的阈值,并给出了与估计阈值相关的计算公式,在此基础上采用集群系统对上述算法进行了测试验证.实验结果表明,对比Hadoop系统自带的需要固定阈值的均衡器,新方法能在均衡过程中利用系统相关信息动态估计阈值,对Hadoop的负载均衡优化取得更加令人满意的效果.  相似文献   

13.
随着移动互联网的快速发展,运营商的核心战略转向以智能管道为基础的流量经营。本文在对Hadoop平台和流量经营分析系统进行分析的基础上,提出了一种基于Hadoop平台的流量经营分析系统实现方案,以期有助于提升运营商的流量内容研究能力和智能营销支持能力,避免“量收剪刀差”的不断拉大。  相似文献   

14.
随着移动互联网的快速发展,运营商的核心战略转向以智能管道为基础的流量经营。本文在对Hadoop平台和流量经营分析系统进行分析的基础上,提出了一种基于Hadoop平台的流量经营分析系统实现方案,以期有助于提升运营商的流量内容研究能力和智能营销支持能力,避免"量收剪刀差"的不断拉大。  相似文献   

15.
大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结果。本文基于Hadoop云计算平台,采用MapReduce技术对SVM网络流量分类器进行分布式学习和训练,构建CloudSVM网络流量分类器。通过对来自校园网出口镜像的近2 T的大规模网络流量的跟踪文件的分布式存储和处理,对抽取的样本数据集进行分类,实验验证了基于Hadoop平台分布式存储和并行处理大规模网络数据集的高效率性,也验证了CloudSVM分类器在不降低分类准确度的情况下可以快速收敛到最佳,并随着大规模网络流样本的增加,SVM分类器训练的时间趋近平稳。  相似文献   

16.
针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理。实验结果表明,Hadoop框架为大规模数据的分布式并行处理提供了很好的解决方案。  相似文献   

17.
基于Docker的Hadoop集群网络性能分析   总被引:1,自引:0,他引:1  
《信息技术》2018,(2):15-18
针对Hadoop从网络的角度来研究提高Hadoop性能的方法不足的问题,提出了一个通过相关工具,根据不同的网络配置,在虚拟化环境Mininet下监测并分析Hadoop集群的网络特性的系统框架。本系统建立一个在Docker容器内运行的Mininet的Hadoop集群,按照不同的需求,通过配置Mininet方便地修改网络拓扑结构,可以监测容器和虚拟交换机的网络流量,并通过网络流量监视器观察网络行为,分析不同的网络设置对Hadoop性能的影响。实验从集群中没有背景流量、集群中的背景流量无Qo S控制、集群中的背景流量有Qo S控制,三个方面对Hadoop集群网络性能进行了详细分析。  相似文献   

18.
随着互联网应用的飞速发展和信息的社会化数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展·陆的瓶颈,通过介绍目前大数据时代面临的挑战,分析了大数据对IT系统的挑战以及针对大数据业务特点的应对策略。目前犬数据技术目前还没形成统一标准,但业界已经广泛使用Hadoop分布式系统作为其大数据处理平台,对大数据环境下Hadoop分布式系统进行了详尽的研究与设计,包括分布式文件系统、并行计算模型、分布式数据库、分布式锁服务等各个功能模块,大数据环境下的Hadoop分布式系统将更有效支撑未来电信运营商业务的发展。  相似文献   

19.
本文针对目前视频共享过程中的关键环节,提出了利用Hadoop平台的相关技术改良视频转码环节,提高转码质量与效率.本文分别对两种现有的公共的云服务平台进行介绍,并对涉及的相关技术进行了详细阐述.根据不同的转码要求,可以选择现有的云平台搭建Hadoop框架去解决问题,降低技术门槛,提高服务质量.  相似文献   

20.
王树鹏  陈明  吴广君 《通信学报》2014,35(12):23-202
针对互联网上典型的社交媒体应用,提出了一个基于随机投影和分块DCT系数的大规模分布式重复图像检索方法。该方法在Hadoop集群的基础上,首先利用随机投影映射生成图像签名,再由图像签名高效的检索HBase表以获得具有高召回率的候选图像集,最后依赖分块DCT系数对候选图像进行进一步过滤来提高检索精度。实验结果表明,对于1 200万张微博图像,当H =2且T=150时,该方法的召回率为98%,精确率为93.2%,平均检索时间为6.7 s。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号