首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%.  相似文献   

2.
Hadoop的分布式文件系统存储的是非结构化数据,可用来存储海量数据,适合海量数据集的应用程序,但有应用系统的关系数据库中存有大量的结构化数据,为了把现有关系数据库中的结化数据转存到Hadoop中,在Hadoop进行分布式计算处理并把分析结果存回到关系数据库中,Hadoop提供了两个访问关系数据的简单接口DBIn-putFormat和DBOutputFormat.通过具体实例介绍Hadoop与现有关系数据库结合,在Hadoop应用程序中访问关系数据.  相似文献   

3.
智能电网需要收集海量设备状态监测数据,这对数据存储与查询提出了更高的要求。为处理这些海量数据,设计并实现了基于Hadoop技术的数据存储系统,包括Hadoop集群、存储客户端和查询客户端。通过基准测试、存储结果验证和查询性能分析,验证了该系统具有分布式海量存储及高效查询的优势,适合智能电网环境下设备状态监测数据的存储。  相似文献   

4.
5.
在众多以手机呼叫记录(Call Detail Record,CDR)为数据源的分析研究和挖掘应用中,相似用户查询作为基础研究方法占据着重要地位。传统的查询算法多为集中式处理,然而CDR数据分布产生和存储的本质带来了相似用户分布式查询的问题。本文结合真实数据集,分析用户存储于各基站的局部数据与全局数据的关系,提出并实现基于局部呼叫数据建模的相对相似用户分布式查询方法(Rsu-DQ),使用真实数据设计实验验证所提出方法的准确性和高效性。  相似文献   

6.
CDR即呼叫详细记录是NGN监测系统中上层应用的基础数据,简化了监测系统存储海量的信令数据,可以准确、全面地反映通信网运行状况。以H.248信令为例,介绍了由原始信令合成SDR,CDR的技术,对该合成算法进行了仿真,实验结果证明了该设计方法的可靠可行性。  相似文献   

7.
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题,提出了基于数据仓库的海量搜索日志分析系统架构.利用Hadoop分布式文件系统(HDFS)存储海量搜索日志,并对搜索日志进行清洗处理,采用impala对数据进行高速的处理,将处理后的统计结果导入到数据仓库中,使用Penta-hoBI对数据进行多维分析和统计报表.获取了关键词分析、查询频率、热词排行、查询词和时间分布、网站排名、用户统计等6个分析主题.分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义.  相似文献   

8.
封闭数据立方是一种有效的无损压缩技术,它去掉了数据立方中的冗余信息,从而有效降低了数据立方的存储空间、加快了计算速度,而且几乎不影响查询性能.Hadoop的MapReduce并行计算模型为数据立方的计算提供了技术支持,Hadoop的分布式文件系统HDFS为数据立方的存储提供了保障.为了节省存储空间、加快查询速度,在传统数据立方的基础上提出封闭直方图立方,它在封闭数据立方的基础上通过编码技术进一步节省了存储空间,通过建立索引加快了查询速度.Hadoop并行计算平台不论从扩展性还是均衡性都为封闭直方图立方提供了保证.实验证明:封闭直方图立方对数据立方进行了有效压缩,具有较高的查询性能,根据Hadoop的特点通过增加节点个数明显加快了计算速度.  相似文献   

9.
针对传统电子政务平台所采用的关系型数据库在处理海量数据时存在性能瓶颈问题,利用Hadoop分布式平台在处理海量数据方面的优势,结合HDFS分布式文件系统、Map/Reduce并行计算模型和Hive仓库技术,设计关系型数据库与Hadoop相结合的电子政务云平台,两者协同提供海量数据查询操作和存储服务,从而降低了关系型数据库服务器的负载压力,增强电子政务平台的扩展性。通过实验证明,Hadoop能大大提高电子政务云平台的查询效率。进一步分析该设计方案中影响查询效率的因素,为深入研究基于Hadoop构建高效的电子政务云提供参考。  相似文献   

10.
随着互联网技术的飞速发展,产生的数据越来越多,这就对数据存储提出了更高的要求。在云计算技术的基础上,采用虚拟化技术和Hadoop技术,构建基于云计算的海量数据存储模型,从而将海量数据设置在Hadoop平台上,利用Mapreduce进行处理,并将海量数据存储在虚拟资源池中,从而有效地提高数据存储效率。  相似文献   

11.
两层传感器网络中安全Top-k查询协议   总被引:1,自引:0,他引:1  
在两层结构传感器网络中,存储节点收集传感器采集的数据,负责处理Sink的查询.在敌对环境中,存储节点可能会被攻击者妥协而泄露传感器所采集的敏感数据以及向Sink返回不完整的或虚假的查询结果.为此,提出了一种安全Top-k查询协议:SecTQ,SecTQ在保证存储节点正确执行查询的同时能有效防止敏感数据的泄露.为了保护数据的隐私性,首先将不同传感器采集的数据之间的直接比较转换成传感器采集的数据与Sink提供的查询比较值进行比较,并提出了一种基于扰动多项式函数的隐私保护方案.该方案利用扰动函数对传感器采集的数据和Sink提供的查询比较值进行编码,保证存储节点在不知道数据和查询比较值真实内容的情况下正确地执行查询处理.为了保护查询结果的完整性,提出了一种称之为水印链的方案,该方案能有效检测查询结果的完整性.  相似文献   

12.
Hadoop在处理海量小图像数据时,存在输入分片过多以及海量小图像存储问题。针对这些问题,不同于采用HIPI、SequenceFile等方法,提出了一个新型图像并行处理模型。利用Hadoop适合处理纯文本数据的特性,本模型使用存储了图像路径的文本文件替换图像数据作为输入,不需要设计图像数据类型。在Map阶段直接完成图像的读取、处理、存储过程。为了简化图像处理算法,将OpenCV和Map函数结合并设计了对应的存储方法,实现小图像文件的存储。实验表明,在Hadoop分布式系统平台下,模型不论在小数据量还是在大数据量的测试数据环境中,都具有良好的吞吐性能和稳定性。  相似文献   

13.
大数据中Hadoop和Apache Spark这两个名字大家并不陌生.但往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考. 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件.同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度.Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储.  相似文献   

14.
XML(Extensible Markup Language,可扩展标记语言)凭借其简单、跨平台、方便阅读等优点,在当今各个领域得到了广泛的应用。然而,作为数据交换标准的XML面对当今海量数据,由于结构不易拆分等问题,其存储和查询性能并不理想。Hadoop的出现,提供了一种新的解决办法。由于Hadoop本身并不适合类似XML格式的半结构化文件处理,因此本文提出来一种基于Hadoop的海量XML查询的解决方案,充分利用Hadoop的并行性能,同时还引入了高效的索引机制,很好的解决了海量XML存储于查询性能问题,实验证明,该方案能达到良好的效果。  相似文献   

15.
廖明 《信息网络》2006,(5):12-15
四川电信七号信令监测系统组网方案1.七号信令监测系统的几种组网方案七号信令监测系统的组网方案比较灵活,根据采集设备的结构和数据处理、存储的方式不同,可以有以下几种组网建设方案。方案1:分散采集,分布存储。采集模块通过高阻的方式跨接在信令链路上对数据进行采集,有效减少了信号衰减,降低了误码率和丢包率;采集到的原始信令数据,经过前端机数据格式转换和事件合成,形成各种数据记录(CDR/TDR)发送到不同的服务器数据库进行保存。方案2:分散采集,集中存储。此方案和方案1的区别在于信令数据的储存方式。采集模块采集到原始信令的数…  相似文献   

16.
查询处理作为大规模无线传感器网络中智能服务的一个重要操作,可以根据用户需求对网络中的感知数据进行检索和回传.然而,部署在恶劣环境中的无线传感网络,节点容易遭受外力破坏,或者自身资源(能量、存储等)有限,可能会导致节点发生位移和故障,从而造成网络拓扑不断改变以及部分节点的感知数据失效.同时,由于节点感知数据容量大、传输带宽有限以及网络链路不可靠等情况,可能会造成网络通信时延大大增加.这些因素使得快速、可靠的数据查询处理成为无线传感网中一个难题.为了解决这个难题,提出一种动态网络中低延迟高可靠的数据查询机制.该机制是一种非聚合随机查询方式,通过将传感节点划分为源节点和查询节点来实现数据查询.首先,根据监测事件将网络划分为若干个子区域,每个子区域中的源节点相互协作,并按照时间顺序依次轮流监听该区域的事件信息;接着,源节点根据预估的平均节点故障概率,计算出一个合理的备份数量,并将源数据按照该数量存储到邻居节点中,以降低源数据的失效概率;然后,为了加快数据查询速度,源节点定期对源数据块进行编码压缩,并选取剩余能量和存储空间较小的多个邻居节点作为下一跳接收节点.这些接收节点基于局部区域中节点个数大小,决定是否接收存储该报文.重复上述过程,直至压缩数据均匀地分布在网络中.另一方面,查询节点接收到查询请求时,也使用负载均衡多路分发方式将查询请求传输到部分节点上.为了避免目标数据的冗余回传,当查询请求成功查询到目标数据时,目标节点先修改访问位,再选取与查询节点距离最近的邻居节点作为下一跳接收节点,迭代执行上述操作,直到用户获得所需要的事件信息.在以上过程中,为了节省节点能量,在保证高成功查询率的条件下,建立通信能耗最小化的优化模型,计算出最优的压缩数据副本数和查询消息副本数,之后,源节点和查询节点分别按照该数量进行副本数据分发.最后,理论分析和实验结果表明,与其它四种查询算法相比,提出的查询机制具有更高的查询成功率、更低的通信能耗和通信时延.  相似文献   

17.
融合通信是当今计算机应用领域研究热点之一,人们对融合通信系统中应用服务的要求也越来越高.在数据存取方面,基于传统关系型数据库或者基于传统文件系统的存储方式已经越来越不能满足应用的需求.随着Hadoop技术以及相关子系统的发展,分布式存储的优势日渐明显.因此,本文在分析HBase、Hive各自特点及其体系结构的基础上,结合融合通信具体项目提出了基于HBase-Hive集成设计的存储引擎设计方法,以此来解决融合通信系统中数据安全性、数据获取效率等方面不满足的情况.通过对比实验表明,该设计方案提高系统数据查询获取效率,也为后续数据挖掘方面的开发做好准备.  相似文献   

18.
在传感器网络中,考虑到节点的通信开销在节点总能量开销中的比重大,以及用户由粗到细分辨率的不同查询需求,有必要在传感器网络中建立支持多分辨率的数据存储机制.首先提出了一种支持多分辨率的数据压缩存储策略 MDCS,节点基于 MDCS在网内产生多分辨率的近似结果;其次,给出了一种基于 MDCS的区域查询处理方法,根据用户给定的分辨率阈值去网内作区域查询处理,并将结果返回给用户.模拟实验表明,基于 MDCS的区域查询处理方法能够高效、低能耗地支持多分辨率的区域查询操作.  相似文献   

19.
首先针对我军装备保障管理系统关系数据库在海量数据查询以及分析处理方面的不足,在对系统数据资源分析的基础上提出并实现了基于Hadoop云平台结构化数据查询策略,通过Sqoop工具将数据库中的数据导入到HDFS中,并利用Hive进行数据分析.然后通过实验证明此方法克服了海量数据在单机环境中查询效率低下的缺点,具有较高的实用价值.  相似文献   

20.
林碧英  王艳萍 《计算机应用》2014,34(10):2806-2811
针对传统电力地理信息系统(GIS)在存储能力、分析能力和扩展能力上的不足,将云计算技术应用到电力GIS领域,提出利用Hadoop云平台对电力GIS数据进行高效存储和管理的方案。首先对电力GIS各类数据的特点进行了分析,提出了关系型数据库与非关系型数据库相结合的数据存储策略,并在此基础上设计了基于Hadoop的电力GIS数据管理整体架构、相应的数据模型以及基于MapReduce的数据并行查询分析方法。最后,在单机和集群的环境下,对空间分析与运行数据查询的性能进行了对比与验证。实验结果表明,在数据量达到一定规模时,该方案优势明显,数据分析与查询的平均时间缩短30%以上,具有较高的效率和良好的扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号