首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 156 毫秒
1.
基于数据仓库的QAR数据分析   总被引:1,自引:0,他引:1  
针对现有各航空公司分析QAR数据的平台不统一、QAR数据量大、分析和处理数据能力不足、导致海量的数据变成了信息垃圾,在对QAR数据和数据仓库技术研究基础上,结合航空公司关心的问题,设计了QAR数据仓库,给出了数据仓库模型的设计,详细阐述了QAR数据分析主题的提取方法,提出QAR数据仓库的星型模型.通过ETL设计了多维数据集,以超限事件为例展现了对QAR数据的安全分析,为航空公司改进飞行品质、提高安全系数提供依据.  相似文献   

2.
云计算等技术的发展,推动了海量数据存储和处理技术的发展,从海量数据中快速找到有价值的信息是进行数据挖掘的关键。Hive能够使用Hibernate查询语言(Hibernate Query Language,HQL)语句对数据进行查询和分析,帮助决策者从海量数据中挖掘出更高价值的信息。以网站流量统计分析为例,从Hive的环境搭建、数据仓库构建、数据查询等方面介绍了Hive的应用。  相似文献   

3.
针对水利普查数据海量、多维的特点,研究近年来在“大数据”概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设计特点,通过分桶、消减维度表和冗余事实表的方法来改进传统的多维分析模型,最后搭建集群系统对水利普查数据集进行查询与分析测试。测试结果表明该数据仓库可以满足海量多维水利普查数据的存储与查询要求。   相似文献   

4.
UniPay支付SDK是联通沃商店为了给开发者提供手机话费和第三方支付能力而推出的一站式应用内统一支付插件,支付SDK日志记录海量的用户终端信息、用户使用手机应用的行为记录等数据。针对传统数据仓库难于满足海量日志数据存储及处理等问题,设计一种基于Hive的支付SDK日志分析系统。测试结果表明,使用Hadoop框架及Hive数据仓库对海量支付SDK日志进行存储和处理,能很好地满足业务需求,对手机应用的设备激活量、日活跃用户数(DAU)、分时日志量以及用户支付转化率等指标的分析结果,对应用开发者升级优化其应用及运营人员的营销策略调整具有重要的参考价值。  相似文献   

5.
李晨翔  何刚  孙莉 《福建电脑》2013,(11):111-114
为了解决传统的抽取、转换和加栽工具处理数据仓库中海量数据的效率问题,设计并实现了基于Hadoop平台的分布式ETL系统。详细的探讨了渐变维度、雪花维度、大维度数据和事实数据的并行处理。实验结果表明,与Hive数据仓库相比,该分布式ETL系统在并行处理数据仓库中海量数据的问题上,具有更高的效率和扩展性。  相似文献   

6.
气象相关的数据随着气象事业现代化水平的不断提高而与日俱增,使得气象部门对于气象数据存储、管理和读取的要求越来越高;通过分析开源云平台Hadoop的分布式文件系统HDFS、数据仓库工具Hive等架构,研究了Hadoop气象云平台的构建过程,最终实现了气象信息数据仓库的建立与测试;该气象信息数据仓库实现了海量气象数据文件的分布式存储、元数据管理以及气象数据的查询;应用表明,使用气象数据仓库进行大型气象数据文件存储和操作时,可以大大提升数据吞吐率和数据读写操作效率。  相似文献   

7.
基于数据仓库的OLAP系统是当前海量多维数据分析的主要工具。随着信息技术的发展,海量多维数据的规模急剧增长,结构日益复杂,OLAP系统的性能严重下降,已经无法满足人们的数据分析需求。基于分布式计算系统Hadoop给出了新的海量多维数据的存储方法和查询方法。设计了HDFS上的列存储文件格式HCFile,基于HCFile给出了海量多维数据存储方案,该方案能够提高聚集计算效率,并有很好的可扩展性。同时,利用多维数据的层次性语义特征,设计了维层次索引,并给出了利用维层次索引和MapReduce进行聚集计算的方法。通过和Hive的对比实验,表明了数据存储方案和查询方法能够有效提高海量多维数据分析的性能。  相似文献   

8.
王正也  李书芳 《软件》2014,(11):94-100
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。  相似文献   

9.
云计算、物联网、大数据等新兴信息技术的发展与应用在提高景区信息化服务水平的同时,也对景区海量信息资源的有效利用提出了严峻挑战。面对超大规模、非结构化的海量数据,传统的基于关系型数据库的数据仓库已很难有效支持景区的数据存储与分析工作。基于此文中提出了一种基于云计算技术的景区数据仓库,通过采用HDFS对数据进行分布式存储管理,利用MapReduce设计海量数据的分析模式,使用HiveQL语言实现数据仓库与前端表现层的交互,能够有效解决景区海量数据的数据管理问题。以黄山风景区为实际背景的实验结果表明了该数据仓库的正确性和有效性。  相似文献   

10.
针对大数据时代下,海军航空部队存在的种种数据治理问题,设计了一种基于Spark的航空信息服务平台,平台实现了航空数据的存储,分析与挖掘等功能.平台采用4层体系架构,使用了HDFS分布式文件存储框架和Hive数据仓库工具实现了数据的存储和管理.最后,通过仿真实验,比较在不同数据量下航空信息服务平台与传统航空数据仓库的性能优劣.通过海军航空信息服务平台建设,可以有效为海军航空部队实训提供数据支撑,为平台使用者提供辅助决策.  相似文献   

11.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。  相似文献   

12.
聂瑞  卢建军  卫晨 《工矿自动化》2012,38(11):77-80
针对煤炭销售数据量大而信息量少的问题,开发了基于Hadoop平台的OLAP煤炭销售数据分析系统,介绍了系统设计思想及架构,并以销售量统计为例阐述了实现数据深层次快速挖掘和直观显示的具体过程。该系统利用Hadoop云平台对数据进行ETL处理,创建Hive分布式数据仓库,并采用Hive的HQL语言进行OLAP统计分析,能够快速、准确地实现对销售量信息的多层次、多角度、深层次的数据挖掘、统计和分析,并直观、多角度地反映数据分析结果。  相似文献   

13.
吴仁彪  刘超  屈景怡 《计算机应用》2018,38(5):1339-1345
针对我国目前航班延误平台的移植难、可扩展性差,无法适应民航高速发展所带来的大数据量存储的现状,设计了面向大数据的跨平台、高适用性与高扩展性的航班延误平台。该平台以大数据工具LeafLet为可视化载体,在地图界面实时显示航班轨迹并将轨迹数据加载至HBase数据库中,并且利用信息摘要算法(MD5)重新设计与优化航班数据表的行键,以解决其递增的飞行时间特性产生的"热点"问题;针对HBase过滤器多级查询的缺陷,提出了基于SolrCloud的关联查询算法,利用SolrCloud实现对行键与索引字段的分层存储,从而实现HBase二级快速索引;最后在HBase的历史航班数据与飞行计划数据基础上,构建基于Hive的海量航班信息数据仓库。实验结果显示,航班延误大数据平台的可扩展性与搭建的航班信息数据仓库可以满足民航对数据集中统一存储的需求,而多条件查询的响应速度与无二级索引的集群相比提高了上百倍,并且这种优势随着航班数据量的增长愈发明显。  相似文献   

14.
为解决传统关系数据库存储QAR数据可扩展性低、可用性差的问题,设计一种基于HBase的QAR数据分布式存储方法。根据QAR数据的特点,设计HBase表结构,将QAR参数划分为安全、航迹、燃油、发动机、预测、飞行员操作及其它共七大主题,构建基于航班号、航班日期、参数主题三者组合的MD5散列值行键结构,根据行键散列值对QAR数据值表预分区,通过行键散列机制和预分区技术相结合的两级优化策略实现QAR数据文件分布式存储。真实QAR数据集上的实验结果表明,该QAR数据存储模式能使数据均衡分布在集群中,避免了写热点和数据倾斜问题,有较高的存取性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号