首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
n维的立方体将生成2n个聚集立方体.如何进行立方体计算,在存储空间和查询时间方面寻求平衡,成为多维分析应用中的关键问题.基于部分物化的策略,并结合水利普查数据特征,改进Minimal cubing方法,提出了层次维编码片段方法HDEF cubing.该方法利用编码长度较小的层次维编码及其前缀,快速检索出与查询关键字相匹配的层次维编码,减少了多表连接操作,从而提高查询效率.以水利普查数据为例,验证了改进的立方体计算方法能高效地对立方体进行存储和查询,适用于水利普查成果分析.  相似文献   

2.
针对高维、维度分层的大数据集,提出一种基于Map/Reduce框架的并行外壳片段立方体构建算法。算法采用Map/Reduce框架,实现外壳片段立方体的并行构建与查询。构建算法在Map过程中,计算出各个数据分块所有可能的数据单元或层次维编码前缀;在Reduce过程中,聚合计算得到最终的外壳片段和度量索引表。实验证明,并行外壳片段立方体算法一方面结合了Map/Reduce框架的并行性和高扩展性,另一方面结合了外壳片段立方体的压缩策略和倒排索引机制,能够有效避免高维数据物化时数据量的爆炸式增长,提供快速构建和查询操作。  相似文献   

3.
数据立方体计算方法研究综述   总被引:2,自引:0,他引:2  
随着多维数据分析在各领域的广泛应用,基于数据立方体的计算方法受到大量研究者的关注.分析了影响 数据立方体计算的各种因素,其中包括数据存储空间、查询处理效率和数据立方体的维护消耗,并且阐述了数据立方体的物化策略.分别从冰山立方体、紧凑数据立方体、高维数据立方体、近似计算、流式数据立方体等几个方面综述了国内外现有的计算方法,分析了各种方法的特点以及适用范围.  相似文献   

4.
文章利用并行计算框架MapReduce,探索数据立方体的计算问题。数据立方体的计算存在两个关键问题,一个是计算时间的问题,另一个是立方体的体积问题。随着维度的增加,计算时间将呈现指数级的增长,立方体的体积也是如此。尽管MapReduce是一个优秀的并行计算框架,但在处理数据倾斜时,分区算法不够完善,导致一些计算任务时间过长,影响整个作业的完成时间。本文通过数据采样的方式,优化数据分区,实验结果表明,数据立方体的计算的性能明显提升。为解决数据立方体体积过大的问题,在Reduce阶段将最终的结果输出到基于NoSQL的HBase数据库进行存储,HBase方便水平扩展,同时也便于日后对数据立方体的查询。  相似文献   

5.
现实生活中大量数据都可以使用多维网络进行建模,如何更好地对多维网络进行分析至今仍是研究人员关注的重点.OLAP(联机分析处理)技术已被证实是对多维关系数据进行分析的有效工具,但应用OLAP技术管理和分析多维网络数据以支持有效决策仍旧是一项巨大的挑战.本文设计并提出了一种新的图立方体模型:路径-维度立方体,并针对提出的立方体模型将物化过程划分为关系路径物化与关联维度物化两部分,分别提出了物化策略并基于Spark框架设计了相关算法;在此基础上,我们针对网络数据设计并细化了相关的GraphOLAP(图联机分析处理)操作,丰富了框架的分析角度,提高了对多维网络的分析能力;最后,在Spark上实现了相关算法,通过对多个真实应用场景中的数据构建多维网络,在分析框架上进行了分析,实验表明我们提出的图立方体模型和物化算法具有一定有效性和可扩展性.  相似文献   

6.
对数据仓库多维视图进行容量估计是数据立方体设计,数据仓库存储规划和实现查询优化的基础,首先以统计理论为基础,提出了一种基于采样的数据仓库数据立方体空间估计策略,该策略针对不同类型的多维视图,对样本统计结果采用不同的空间放大策略,确保了估计结果具有较高的准确性,同时,该策略在最大估计的基础上采用一些启发式规则,对估计视图集进行有效的约简,并对估计过程中采用了样本视图预物化思想,根据预物化视图集生成优化的立方体空间估计序列,从而大幅缩短了整体估计时间。  相似文献   

7.
水利普查数据更新维护是全国水利普查成果长期有效应用的重要支撑和保障。第一次全国水利普查后,数据更新是否及时,质量能否保障,共享能否畅通,以及现有数据能否满足需求等问题将是影响普查成果在水利信息系统应用的重要制约因素。针对这些问题,着眼于构建"统一化、专业化、标准化"的水利数据中心,形成一体化的国家基础水信息平台为总体目标,提出数据更新维护应遵循的多样性、适用性、规范性、协同性、同步性等5项原则,重点研究数据更新维护实施的技术手段及路径,并初步探讨相关标准、管理制度及工作流程,以建立数据更新维护过程的长效机制,确保水利数据资源得到充分利用。  相似文献   

8.
谢琦  张振兴 《计算机应用》2007,27(B06):4-5,9
通过分析Apriori算法的特点,提出一种有针对性的联机分析处理(OLAP)关联规则挖掘模型。该模型在数据立方体维度和度量值设计上充分考虑了Apriori算法的特点,使数据立方体物化更多算法所需要的中间数据;同时适当改进算法使之适应所设计的数据立方体。研究表明,该设计方法在灵活性和效率方面都有较好的表现。  相似文献   

9.
条件函数依赖(Conditional Functional Dependencies,CFDs)在数据库一致性的检测上应用广泛。为检测水利普查数据的一致性,本文针对水利普查数据特点,将普查数据分为度量、维度2部分,并对度量数据进行聚类,引入条件函数依赖的概念,同时重新定义条件函数依赖,改进发现条件函数依赖的算法(即CTANE算法);以水库工程数据为例,验证本文改进的算法能准确高效地发现水利普查数据中的条件函数依赖,为检测数据一致性做好准备。  相似文献   

10.
针对水利普查数据量大、属性维度多等特点,论文通过探讨和分析Hadoop的组成和运行机制,提出了一种基于Hadoop云平台的水利普查数据挖掘系统,介绍了系统的设计思想及架构,详细阐述系统内各个模块的功能作用。该系统利用Hadoop云平台实现了一种改进后的并行关联规则算法,既充分利用了Hadoop平台并行处理数据的能力,又降低了开发所需的成本。通过进行单机对比测试和集群测试,证明了系统具有更好的可用性和较高的挖掘效率。  相似文献   

11.
针对水利普查数据海量、多维的特点,研究近年来在“大数据”概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设计特点,通过分桶、消减维度表和冗余事实表的方法来改进传统的多维分析模型,最后搭建集群系统对水利普查数据集进行查询与分析测试。测试结果表明该数据仓库可以满足海量多维水利普查数据的存储与查询要求。   相似文献   

12.
基于兴趣视图子集的流立方体计算方法   总被引:1,自引:0,他引:1  
流立方体计算是流式数据多维分析的重要基础,然而流式数据的动态性、无限性、突发性等特征使其面临巨大的挑战.在实际应用中,用户的兴趣通常集中在部分视图上,基于这个特点提出了一种基于兴趣视图子集的计算方法,依据用户历史查询信息确定兴趣视图子集与兴趣路径,同时定义了Stream-Tree结构用于在主存中物化存储兴趣视图子集所包含的数据单元,在运行过程中依据多层次时间窗口约束不断更新和维护Stream-Tree中存储的数据单元,而对于稀疏数据单元仅保留高层次的聚集值.实验和分析表明,该方法能够在有限的主存空间中维持流立方体当前窗口内的数据单元,同时能够支持快速更新维护存储结构和响应用户查询.  相似文献   

13.
数据处理工作是水利普查工作的重要组成部分,是水利普查的关键环节,必须采用科学的普查方法和先进的技术手段,才能确保所有普查数据能有效、快速、安全地采集和汇集。详细阐述了水利普查目前需要重点做好的4个方面的工作:认真完善数据处理软件,奠定普查工作基础;高度重视工作底图应用,提高水利普查效率;切实重视系统安全与保密工作,确保普查工作的顺利进行;充分利用信息化建设成果,发挥信息化部门的支撑作用。  相似文献   

14.
针对现有聚类算法计算复杂度普遍较高的问题,提出了一种基于定位的方法。该算法采用空间定位的方法将数据对象映射到特征空间中,并利用空间立方体的某些特殊顶点定位任一数据点;通过计算数据点与空间立方体顶点群的距离差异,完成聚类过程。在电信数据集上的实验结果表明,算法的时间复杂度降至O(N)级别。  相似文献   

15.
针对水利舆情及业务工作对互联网舆情大数据的需求,研究利用大数据、自然语言处理等技术,基于多模态智能分析架构,采用知识图谱、信息萃取、价值识别等手段,开展信息价值点、敏感点、关键点、发酵点的发现及标引和提取,建设水利舆情大数据分析平台.平台运行有效地推动舆情工作及水利业务工作的融合,扩大水利舆情工作的深度和广度,验证水利业务系统利用互联网维度数据途径的可行性,打开互联网维度数据与水利业务数据叠加的发展空间,提升舆情大数据的价值密度,可为水利部门户网站、河(湖)长制管理、水资源管理、水资源大数据分析等业务系统,提供业务数据支持和分析决策支撑.  相似文献   

16.
网络教学评价是网络教学的一个重要环节。提出了基于数据立方体的网络教学评价模型,以学生、教师为评价对象,构建相应的数据立方体。学生学习行为数据立方体及教师教学行为数据立方体均由六个维度构成,以访问时间作为主要的度量值。并讨论了模型中涉及的关键技术。  相似文献   

17.
辽宁省结合第一次水利普查成果,积极开展普查成果开发应用实践活动,开发建设辽宁省水利普查成果查询应用系统,取得良好的效果。结合辽宁省水利普查成果查询应用系统功能设计,归纳总结出设计要点,以供交流与参考。  相似文献   

18.
随着原始数据记录数的增多,数据立方体在存储空间和计算时间上的消耗都越来越大,封闭立方体是减少数据立方体的存储空间的有效手段。提出一种新的封闭数据立方体的生成算法,针对大量的原始数据集,通过预处理,采用类似BUC算法的计算顺序自上而下递归输出封闭单元,使用实际数据做了相关研究的实验,实验结果表明该算法能有效提高生成速度。  相似文献   

19.
网络教学评价是网络教学的一个重要环节。提出了基于数据立方体的网络教学评价模型,以学生、教师为评价对象.构建相应的数据立方体。学生学习行为数据立方体及教师教学行为数据立方体均由六个维度构成,以访问时间作为主要的度量值。并讨论了模型中涉及的关键技术。  相似文献   

20.
数据立方体在许多多维数据的数据仓库的高速OLAP操作中扮演着重要的角色.但是在许多高维的数据仓库的应用中,例如超过100维,大约106个元组,在这样高维下建立物化数据立方体是不可行的.利用最小方的方法可以在高维数据集上进行有效OLAP操作的方法.但每次进行OLAP操作所涉及的维大多有固定的分布,所以大量的查询都有重复计算.如果能部分物化与大多数OLAP操作相关维的立方体ID,就能在进行OLAP操作时可以大大的提高OLAP操作的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号