首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model, CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的 GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.  相似文献   

2.
随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性.  相似文献   

3.
In recent years there has been a significant interest in peer-to-peer (P2P) environments in the community of data management. However, almost all work, so far, is focused on exact query processing in current P2P data systems. The autonomy of peers also is not considered enough. In addition, the system cost is very high because the information publishing method of shared data is based on each document instead of document set. In this paper, abstract indices (AbIx) are presented to implement content-based approximate queries in centralized, distributed and structured P2P data systems. It can be used to search as few peers as possible but get as many returns satisfying users' queries as possible on the guarantee of high autonomy of peers. Also, abstract indices have low system cost, can improve the query processing speed, and support very frequent updates and the set information publishing method. In order to verify the effectiveness of abstract indices, a simulator of 10,000 peers, over 3 million documents is made, and several metrics are proposed. The experimental results show that abstract indices work well in various P2P data systems.  相似文献   

4.
数据查询优化算法综述   总被引:8,自引:0,他引:8  
综合提出了评价查询优化算法的4个标准,并基于这4个标准作了比较分析,便于更容易、更快捷地找到适用特定问题的优化方法。  相似文献   

5.
本体在演变的过程中常出现不一致性问题,这将导致经典的推理模式失效. 不一致容忍语义能有效地解决推理失效的问题,但各类不一致容忍语义或者需要耗费大量计算,或者丢弃了本体中有效的信息.为此,一种针对IAR-语义和ICAR-语义的变种被用以解决上述的缺陷.新定义的IPAR-语义能够避免计算整个ABox关于TBox的封闭,在减少计算量的同时尽可能地保留了本体中的信息.在IPAR-语义下实现了基于图的查询应答方法,新方法将本体和查询以不同的规则构建成图,避免了传统重写导致的查询冗余的问题.最后,通过实验对比新的查询应答方法与ICAR-语义下的查询应答方法,实验结果表明:基于图的一致性查询方法执行效率要优于ICAR-语义下的查询方法;在本体规模不断增加的情况下,新方法具有更好的稳定性.  相似文献   

6.
屈啸  王永利 《计算机科学》2012,39(6):170-174
随着物联网的发展,以RFID为代表的物联网传感器数据的存储、查询、处理等课题正成为研究的热点。结合数据仓库时空维度和列存储的思想,建立了一种列式RFID数据仓库,并根据RFID的时空特性,设计了一种支持连续聚集查询的多时空粒度数据结构和快速更新算法。它去除了传统聚集查询的部分冗余操作,适合处理大规模RFID数据仓库上的连续实时聚集查询。通过实验证明,该模型与算法在一些典型的物联网应用中取得了较高的效率,可广泛地适用于海量RFID数据仓库上的OLAP分析。  相似文献   

7.
查询速度是联机分析处理中的一个关键性能指标,人们通过事先生成所有可能的聚集来提高查询速度,然而这样的完全物化是以存储空间为代价的.针对数据立方体数据分布特点和结合压缩技术,本文介绍如何最大化节省存储空间来进行完全物化,然后在此基础上对查询进行了研究,以达到最小存储空间以及较好的查询速度的目的.  相似文献   

8.
基于划分的数据仓库查询归并技术及其应用   总被引:1,自引:0,他引:1  
在数据仓库中存在着大量的数据,对这些数据的查询与处理要消耗大量的资源,解决这一问题的有效办法是先将数据划分为便于处理的数据块,再对数据块进行处理,最后将处理结果进行归并。介绍了常用的基于划分的数据仓库查询归并技术及其在VB中的应用,并结合自己的编程经验给出了例证。  相似文献   

9.
李志平  孙瑜 《计算机工程与应用》2004,40(34):186-187,194
该文对查询系统做了深入的研究,提出了一种基于本体的智能查询系统的形式化模型,并且对系统的具体运行过程进行了详细的分析。该模型充分考虑了用户查询的语义信息,并且引入了本体环境和用户查询环境来对系统进行建模。将用来对数据库的语义信息进行描述的本体层引入到异构的、分布式的数据库系统中,在方便用户进行查询的同时增加查询结果的相关性和用户满意度。同时,系统能够及时地反映数据库信息的动态变化。  相似文献   

10.
考虑了分布式数据仓库的星型模式及数据分段的特点,在各站点对分组关键字进行编码压缩,并采用分布式聚集运算的方法,最后在请求站点生成完整的分组聚集结果,以降低站点内的排序费用,减少站点间传输的元组大小和数目,从而降低了站点内的处理代价和站点间的数据传输费用,提高了分布式数据仓库分组聚集运算的效率。  相似文献   

11.
面向轨迹数据流的KNN近似查询   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于滑动窗口的K-最近邻(KNN)近似查询算法。将滑动窗口内数据通过聚类划分成若干大小不一的基本窗口,针对每个基本窗口给定一个采样率,对窗口内数据进行偏倚采样,形成数据流摘要,并基于该摘要,采用计算几何平面扫描算法执行分布式最近邻查询。仿真实验结果表明该算法有效,且具有较好的可扩展性。  相似文献   

12.
鲍蓉 《计算机工程》2009,35(2):39-41
针对传统数据仓库系统中多维模式进化历史的挥发性问题,提出用版本元数据来记录数据仓库进化过程中的每一种多维模式状态,给出版本元数据结构,设计了跨版本透明查询系统及相应的查询算法。查询分解算法将用户基于一种模式结构提出的查询请求分解为在各个数据仓库版本上计算的子查询,集成算法将子查询结果进行必要的汇总和转换。  相似文献   

13.
康炎丽  李丰  王蕾 《软件学报》2017,28(7):2126-2147
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果,优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.本文从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如:MapReduce)周期性调度执行的物理查询任务.本文以Apache Hive为基础实现了上述方法的原型HiveInc.实验表明,对于扩展了增量语法描述的TPC-H测试集,HiveInc相比优化前,可以获得平均2.93倍,最高5.78倍的加速;与经典优化技术IncMR,DryadInc相比,分别可以获得1.69和1.61倍的加速.  相似文献   

14.
WWW分布数据源研究——数据模型和查询语言*   总被引:9,自引:0,他引:9  
陈滢  徐宏炳  王能斌 《软件学报》1998,9(8):566-573
该提出了分布式WWW(world-wide web)数据源WWWDS(WWW data sources)概念,详细介绍了WWWDS的数据模型,该数据模型包括节点、节点空器、节点图和链接点等,简单且具有扩展性,同时提出相应的查询能力强的查询语言WWWQL(WWW query language),并进一步探讨了查询处理和优化问题。  相似文献   

15.
潘立强  李建中  骆吉洲 《软件学报》2010,21(4):1020-1030
由于无线传感器网络的能源有限,且在许多应用中Skyline 查询的部分结果即可满足用户需求,提出了一 种近似Skyline 查询处理算法,在满足用户查询需求的前提下最大化地节省能量.该算法仅需无线传感器网络中的部 分传感器节点回传其感知数据即可计算出Skyline 查询的一个近似结果集.由于该算法在处理查询时,每个传感器节 点只需考察自身数据信息即可决定是否回传其感知数据,而无须与其他传感器节点的感知数据进行比较,因此可以 避免大量的网内通信开销,从而节省网络能源.模拟环境下的大量实验结果表明,该算法可以根据用户的应用需求, 节能地处理传感器网络中的近似skyline 查询.  相似文献   

16.
基于语义计算的公交移动问答系统   总被引:1,自引:0,他引:1       下载免费PDF全文
为解决外来旅客公交问询困难的问题,本文利用模式匹配、编辑距离计算、语义计算、自动问答等技术,实现了基于自然语言问答的公交移动问答系统。本文在抽象公交节点的基础上引入站点概念词,对站点关键词进行扩展、消除问询歧义,把公交线路抽象成线路节点网络模型,引入查询日志记录快表辅助问答,借助手机短消息业务实现了双向向传输。实验结果表明,该系统达到了预期效果。  相似文献   

17.
基于多领域本体的智能查询系统模型   总被引:5,自引:0,他引:5  
孙瑜  李志平 《计算机工程》2005,31(13):148-150
提出了一种基于多领域本体的智能查询系统的形式化模型,并且对系统及其特点进行了详细分析。该模型引入本体层来对知识库系统中的语义和信息内容进行描述,充分体现了用户查询中的语义信息,既方便用户进行查询,又增加了查询结果的相关性。同时,系统能够及时反映知识库的动态变化,简化了单一的全局本体所导致的一致性及效率问题。  相似文献   

18.
基于数据垂直划分的分布并行Skyline查询算法大多并行性较低,无法适应海量分布式数据的快速响应要求。为此,在BDS算法的基础上提出一种更高效的分布并行Skyline查询算法PDS-VP。其中,节点被分为协调者与参与者,原本由协调者节点完成的随机访问和本地Skyline计算分发给各参与者节点进行处理,以提高算法的执行效率。实验结果证明,该算法提高了原算法的并行性和运行效率。  相似文献   

19.
1.引言数据仓库作为支持OLAP应用的系统,它所面对的数据往往都具有很大的规模。如何快速地得到查询结果,一直是人们研究的一个重要方向。在已有的研究中,已经相继提出了使用实体化视图和各种有效的索引技术来提高查询响应性能。使用实体化视图是通过数据的冗余存储,对于常用的聚集数据进行预计算,使用预计算结果响应用户查询。而索引技术也主要是应用在存储层上的,如在文[4]中提到在存储层中使用bitmap索引提取相关数据的方法。而在查询处理逻辑层次上的优化技术目前研究得还比较少。在文[3]中提到了使用缓存技术,减少磁盘I/O及通信代价,提高查询效率的方法,这个  相似文献   

20.
基于XQuery的异构数据源查询处理   总被引:2,自引:0,他引:2       下载免费PDF全文
严小泉  刘渊 《计算机工程》2009,35(14):87-89
异构数据源的集成问题是当前数据处理领域内研究的热点,它能更有效地利用信息资源,更好地实现数据共享。介绍一种基于Mediator-Wrapper中间层的异构数据源集成系统框架,对XQuery查询处理过程及其关键问题,如查询分解和优化技术进行深入研究,并结合实例进一步说明异构数据源中查询分解和优化的具体实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号