排序方式: 共有27条查询结果,搜索用时 0 毫秒
21.
本文提出了一种对Hive进行图形化界面管理的设计方案,实现了用户对Hive数据仓库的数据表管理,数据查看检索,以及用户对数据库的权限管理等功能,使用户可以友好的访问属于自己权限Hive数据内容。 相似文献
22.
《Planning》2014,(2)
云计算是当前国内外比较热门的研究课题。Hadoop开源实现了谷歌公司的GFS(Google File System),并且成为云计算平台的标准模型。本文在对Hadoop的核心组件HDFS和子项目HBase、Hive深入分析基础上,基于Hadoop+HBase+Hive搭建起云计算平台,经过实验证明云计算平台具有查询速度快和高容错性等特点。 相似文献
23.
随着智能变电站的建设及其状态监测系统的发展,电力设备状态信息数据规模逐渐增大。针对现有电力数据仓库在海量状态数据存储查询和分析处理方面的不足,提出基于Hive的电力设备状态信息数据仓库及其多维数据快速查询与分析方法。通过对状态监测系统与生产管理系统(PMS)的分析,将电力设备静态信息与状态监测信息存储到Hive数据仓库中。设计了基于Hive的电力设备状态信息数据仓库的系统架构和海量状态数据存储结构,采用Hadoop 分布式文件系统(HDFS)对数据进行分布式存储管理,MapReduce作为海量数据查询分析 相似文献
24.
针对我国目前航班延误平台的移植难、可扩展性差,无法适应民航高速发展所带来的大数据量存储的现状,设计了面向大数据的跨平台、高适用性与高扩展性的航班延误平台。该平台以大数据工具LeafLet为可视化载体,在地图界面实时显示航班轨迹并将轨迹数据加载至HBase数据库中,并且利用信息摘要算法(MD5)重新设计与优化航班数据表的行键,以解决其递增的飞行时间特性产生的"热点"问题;针对HBase过滤器多级查询的缺陷,提出了基于SolrCloud的关联查询算法,利用SolrCloud实现对行键与索引字段的分层存储,从而实现HBase二级快速索引;最后在HBase的历史航班数据与飞行计划数据基础上,构建基于Hive的海量航班信息数据仓库。实验结果显示,航班延误大数据平台的可扩展性与搭建的航班信息数据仓库可以满足民航对数据集中统一存储的需求,而多条件查询的响应速度与无二级索引的集群相比提高了上百倍,并且这种优势随着航班数据量的增长愈发明显。 相似文献
25.
运行在Hadoop上的数据仓库Hive可以让更多的用户通过SQL接口来处理Hadoop数据。然而,Hive却没有为连接操作提供有效的途径,而连接操作是一种常见且在Hadoop中非常费时的操作。为了解决连接操作在Hadoop中性能的问题,本文提出一种混合策略的连接算法HJ A,根据当前应用场景在几种连接算法之间选择相对较合适的算法,实验结果表明,HJ A可以在大多数的Hadoop场景中发挥很好的性能。 相似文献
26.
分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有数据仓库的不足,提出基于Hive的QAR数据仓库。通过对Hive特点及QAR数据结构分析,设计了基于Hive的QAR数据仓库的总体架构和存储结构。通过将现有数据仓库中的数据移植到基于Hive的QAR数据仓库,实现了对已有数据仓库的兼容。实验结果表明基于Hive的QAR数据仓库在面对QAR数据剧增的情况下,处理所需时间依然保持着线性增长。 相似文献
27.
负载不均衡问题位列影响大规模MapReduce集群性能因素的首位,而Hive join查询非常容易触发该问题。通用解决方案是基于中间键值对的key频率分布设计能够实现负载均衡的key划分算法。现有工作估算key频率分布时依赖于对map的输出进行监控采样,使得通信开销较大并显著延后了shuffle的启动。针对Hive join查询,提出了基于ORC元数据的key频率分布估计方法和相应的负载均衡key划分方法。该方法具有计算量小、通信开销小、不影响现有shuffle机制的优点。通过基准测试证明了该方法在key频率分布估算效率上的巨大提升及相应的key划分方法对Hive join查询性能的提升。 相似文献