共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
云计算等技术的发展,推动了海量数据存储和处理技术的发展,从海量数据中快速找到有价值的信息是进行数据挖掘的关键。Hive能够使用Hibernate查询语言(Hibernate Query Language,HQL)语句对数据进行查询和分析,帮助决策者从海量数据中挖掘出更高价值的信息。以网站流量统计分析为例,从Hive的环境搭建、数据仓库构建、数据查询等方面介绍了Hive的应用。 相似文献
3.
分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有数据仓库的不足,提出基于Hive的QAR数据仓库。通过对Hive特点及QAR数据结构分析,设计了基于Hive的QAR数据仓库的总体架构和存储结构。通过将现有数据仓库中的数据移植到基于Hive的QAR数据仓库,实现了对已有数据仓库的兼容。实验结果表明基于Hive的QAR数据仓库在面对QAR数据剧增的情况下,处理所需时间依然保持着线性增长。 相似文献
4.
气象相关的数据随着气象事业现代化水平的不断提高而与日俱增,使得气象部门对于气象数据存储、管理和读取的要求越来越高;通过分析开源云平台Hadoop的分布式文件系统HDFS、数据仓库工具Hive等架构,研究了Hadoop气象云平台的构建过程,最终实现了气象信息数据仓库的建立与测试;该气象信息数据仓库实现了海量气象数据文件的分布式存储、元数据管理以及气象数据的查询;应用表明,使用气象数据仓库进行大型气象数据文件存储和操作时,可以大大提升数据吞吐率和数据读写操作效率。 相似文献
5.
基于Hadoop 的高效连接查询处理算法CHMJ 总被引:3,自引:0,他引:3
提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍. 相似文献
6.
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率. 相似文献
7.
分布式计算框架(HadoopMapReduce)解决了大数据分布式计算和并发计算问题,具有良好的扩展性和容错性,非常适合超大规模数据处理和分析。Hive基于HadoopMapReduce构建数据仓库分析系统,提供丰富的结构化查询语言(Structured Query Language,SQL)查询能力,可将SQL语句转变成MapReduce任务执行分析数据。但是,MapReduce本身的特点(Map阶段和Reduce阶段)使得其在多表关联和复杂SQL场景时运行较慢。因此,基于真实场景打造了一套通过TEZ引擎和LLAP(Live Long and Process)技术结合来提升Hive查询能力的系统,面对复杂的多表关联查询、使用频率较高的复杂查询时能够快速高效率执行,缩短了用户等待时间。 相似文献
8.
9.
对Hive数据仓库的创建与启动的过程进行了介绍,着重讲解了通过Load命名加载数据的两种方式,即通过本地将数据文件加载到Hive表中,通过HDFS将数据文件加载到Hive表中。这两种方式在实际生产环境中,应用十分广泛。 相似文献
10.
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。 相似文献
11.
Presto是Facebook在2013年11月正式开源的项目。据工程师Martin Traverso介绍,Presto项目开始于2012年秋,目的是提供一个在数据仓库(基于Hadoop)上低延迟的交互查询引擎,能处理大量的并发查询请求且单个查询能更快返回结果,通过查询效率的提升帮助提高其他数据处理、分析工作的效率。 相似文献
12.
13.
14.
15.
Yammer是一款交互式协作工具,以一种类似于Twitter甚或Facebook的方式实现企业员工之间的联系。但可以使用Outlook插件作为其社交网络应用的界面选项。 相似文献
16.
基于数据仓库的数据挖掘系统结构框架 总被引:4,自引:0,他引:4
本文提出了一种基于数据仓库的数据挖掘系统结构框架。该系统把数据仓库、数据挖掘工具和知识库结合在一起,实现了查询协同和知识库的增量维护,能够解决在大容量数据集中快速发现知识的问题,提高了数据挖掘的效率。 相似文献
17.
18.
基于数据仓库的OLAP系统是当前海量多维数据分析的主要工具。随着信息技术的发展,海量多维数据的规模急剧增长,结构日益复杂,OLAP系统的性能严重下降,已经无法满足人们的数据分析需求。基于分布式计算系统Hadoop给出了新的海量多维数据的存储方法和查询方法。设计了HDFS上的列存储文件格式HCFile,基于HCFile给出了海量多维数据存储方案,该方案能够提高聚集计算效率,并有很好的可扩展性。同时,利用多维数据的层次性语义特征,设计了维层次索引,并给出了利用维层次索引和MapReduce进行聚集计算的方法。通过和Hive的对比实验,表明了数据存储方案和查询方法能够有效提高海量多维数据分析的性能。 相似文献
19.
Web数据仓库的异步迭代查询处理方法 总被引:2,自引:0,他引:2
数据仓库信息量的飞速膨胀对数据仓库提出了巨大挑战.如何提高Web环境下数据仓库的查询效率成为数据仓库研究领域重要的研究问题.对Web数据仓库的体系结构和查询方法进行了研究和探讨.在分析几种Web数据仓库实现方法的基础上,提出了一种Web数据仓库的层次体系结构,并在此基础上提出了Web数据仓库的异步迭代查询方法.该方法充分利用了流水线并行技术,在Web数据仓库的查询处理过程中不同层次的结点以流水线方式运行,并行完成查询的处理,提高了查询效率.理论分析表明,该方法可以有效地提高Web数据仓库的查询效率. 相似文献
20.
针对我国目前航班延误平台的移植难、可扩展性差,无法适应民航高速发展所带来的大数据量存储的现状,设计了面向大数据的跨平台、高适用性与高扩展性的航班延误平台。该平台以大数据工具LeafLet为可视化载体,在地图界面实时显示航班轨迹并将轨迹数据加载至HBase数据库中,并且利用信息摘要算法(MD5)重新设计与优化航班数据表的行键,以解决其递增的飞行时间特性产生的"热点"问题;针对HBase过滤器多级查询的缺陷,提出了基于SolrCloud的关联查询算法,利用SolrCloud实现对行键与索引字段的分层存储,从而实现HBase二级快速索引;最后在HBase的历史航班数据与飞行计划数据基础上,构建基于Hive的海量航班信息数据仓库。实验结果显示,航班延误大数据平台的可扩展性与搭建的航班信息数据仓库可以满足民航对数据集中统一存储的需求,而多条件查询的响应速度与无二级索引的集群相比提高了上百倍,并且这种优势随着航班数据量的增长愈发明显。 相似文献