共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率. 相似文献
4.
针对传统电子政务平台所采用的关系型数据库在处理海量数据时存在性能瓶颈问题,利用Hadoop分布式平台在处理海量数据方面的优势,结合HDFS分布式文件系统、Map/Reduce并行计算模型和Hive仓库技术,设计关系型数据库与Hadoop相结合的电子政务云平台,两者协同提供海量数据查询操作和存储服务,从而降低了关系型数据库服务器的负载压力,增强电子政务平台的扩展性。通过实验证明,Hadoop能大大提高电子政务云平台的查询效率。进一步分析该设计方案中影响查询效率的因素,为深入研究基于Hadoop构建高效的电子政务云提供参考。 相似文献
5.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。 相似文献
6.
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。 相似文献
7.
空间信息的存储和处理问题是地理信息系统(GIS)的核心问题.对空间数据和属性数据的统一存储管理已成为必然趋势.本文通过对GIS中海量数据的存储方式进行研究,指出对象-关系型的数据库存储方式是空间数据库的发展方向.在此基础上讨论了Hibernate技术与GIS数据库的结合,使用Hibernate技术将关系数据库中空间数据和属性数据进行封装,屏蔽了数据库底层操作,使得程序员可以用面向对象的思想随意操纵数据库,在利用了关系数据库的快速检索、查询能力的同时也增强了数据的一致性和可移植性. 相似文献
8.
分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有数据仓库的不足,提出基于Hive的QAR数据仓库。通过对Hive特点及QAR数据结构分析,设计了基于Hive的QAR数据仓库的总体架构和存储结构。通过将现有数据仓库中的数据移植到基于Hive的QAR数据仓库,实现了对已有数据仓库的兼容。实验结果表明基于Hive的QAR数据仓库在面对QAR数据剧增的情况下,处理所需时间依然保持着线性增长。 相似文献
9.
气象相关的数据随着气象事业现代化水平的不断提高而与日俱增,使得气象部门对于气象数据存储、管理和读取的要求越来越高;通过分析开源云平台Hadoop的分布式文件系统HDFS、数据仓库工具Hive等架构,研究了Hadoop气象云平台的构建过程,最终实现了气象信息数据仓库的建立与测试;该气象信息数据仓库实现了海量气象数据文件的分布式存储、元数据管理以及气象数据的查询;应用表明,使用气象数据仓库进行大型气象数据文件存储和操作时,可以大大提升数据吞吐率和数据读写操作效率。 相似文献
10.
基于数据仓库的OLAP系统是当前海量多维数据分析的主要工具。随着信息技术的发展,海量多维数据的规模急剧增长,结构日益复杂,OLAP系统的性能严重下降,已经无法满足人们的数据分析需求。基于分布式计算系统Hadoop给出了新的海量多维数据的存储方法和查询方法。设计了HDFS上的列存储文件格式HCFile,基于HCFile给出了海量多维数据存储方案,该方案能够提高聚集计算效率,并有很好的可扩展性。同时,利用多维数据的层次性语义特征,设计了维层次索引,并给出了利用维层次索引和MapReduce进行聚集计算的方法。通过和Hive的对比实验,表明了数据存储方案和查询方法能够有效提高海量多维数据分析的性能。 相似文献
11.
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,海量数据的实时处理需求日益增多,传统的日志分析技术在处理海量数据时存在计算瓶颈。大数据时代下,随着开放式处理平台的发展,能够处理大规模且多样化数据的大数据处理系统应运而生。为了让原有的业务能够充分利用Hadoop的优势,本文首先研究了基于大数据技术的网络日志分析方法,构建了网络日志分析平台以实现万亿级日志采集、解析、存储和高效、灵活的查询与计算。对比分析了Hive、Impala和Spark SQL这3种具有代表性的SQL-on-Hadoop查询系统实例,并展示了这类系统的性能特点。采用TPC-H测试基准对它们的决策支持能力进行测试及评估,通过对实验数据的分析和解释得到了若干有益的结论。实现了海量日志数据计算与分析在证券领域的几种典型应用,为进一步的研究工作奠定了基础。 相似文献
12.
安全管理平台(SMP)是实现安全管理工作常态化运行的技术支撑平台,在实际应用中需要实时处理来自安全设备所产生的海量日志信息。为解决现有SMP中海量日志查询效率低下的问题,设计基于云计算的SMP日志存储分析系统。基于Hive的任务转化模式,利用Hadoop架构的分布式文件系统和MapReduce并行编程模型,实现海量SMP日志的有效存储与查询。实验结果表明,与基于关系数据的多表关联查询方法相比,该系统使得SMP日志的平均查询效率提高约90%,并能加快SMP集中管控的整体响应速度。 相似文献
13.
海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用.另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易用性,被广泛地应用于海量数据处理.因此,基于MapReduce框架的海量数据相似性连接查询技术成为海量数据处理领域的热点问题之一.首先,概括了海量数据固有特点和MapReduce编程框架的缺陷给现有相似性连接查询技术带来的巨大挑战;其次,提出了海量数据相似性连接的定义,按3种不同的分类标准对其进行了分类;接着,重点分析了集合、字符串和向量数据类型的海量相似性连接查询最新技术,并从效率和适用范围等方面分别对这些技术进行了比较;最后,讨论了海量数据相似性连接查询技术亟待解决的关键问题,并提出了一些有前景的解决方案. 相似文献
14.
15.
海量数据管理平台MDMP中并行加载与查询技术研究 总被引:1,自引:0,他引:1
海量数据的产生对传统的数据库技术在数据存储、实时数据加载、实时数据查询等方面都提出了新的挑战.海量数据管理平台MDMP就是针对海量数据的存储及管理需求而研制的. MDMP中基于流水的多路并行加载技术提供了高性能的加载,并实现了在加载的同时进行实时查询;基于语义缓存的并行查询技术对于MDMP中频繁的聚集查询进行了优化,提高了查询速度.主要研究了这两个关键技术. 相似文献
16.
随着海关信息化的发展,电子数据急剧增长,如何从海量数据中快速定位有效信息,是当前面临的一个重大技术问题。海关情报系统的海量数据搜索分析子系统能在海量数据中进行“百度式”秒级搜索,并对数据进行深度分析,用户交互友好、性能优越,支持数据的注册扩展,为整合各类查询分析功能提供开放式技术架构。文章通过对该系统的介绍,探讨了它在海关其他系统中的应用,借此充分发挥先进技术的价值,引导海关业务发展,同时还能避免重复开发建设,推进“节约型海关”的发展。 相似文献
17.
基于Hive的海量搜索日志分析系统研究 总被引:2,自引:0,他引:2
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析处理, 对用户搜索行为进行了分析研究。对用户搜索行为中的查询热点主题、用户点击数和URL排名、查询会话的分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义。 相似文献
18.
19.
20.
在研究Hibernate JPA查询技术理论的基础上,阐述JPA结合视图组件JQuery框架技术设计和实现数据查询的方法过程。着重总结Hibernate JPA结合JQuery框架实现数据查询的特点以及相对其它技术的优势。 相似文献