共查询到20条相似文献,搜索用时 10 毫秒
1.
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model, CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的 GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率. 相似文献
2.
随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性. 相似文献
3.
AbIx: An Approach to Content-Based Approximate Query Processing in Peer-to-Peer Data Systems 下载免费PDF全文
In recent years there has been a significant interest in peer-to-peer (P2P) environments in the community of data management. However, almost all work, so far, is focused on exact query processing in current P2P data systems. The autonomy of peers also is not considered enough. In addition, the system cost is very high because the information publishing method of shared data is based on each document instead of document set. In this paper, abstract indices (AbIx) are presented to implement content-based approximate queries in centralized, distributed and structured P2P data systems. It can be used to search as few peers as possible but get as many returns satisfying users' queries as possible on the guarantee of high autonomy of peers. Also, abstract indices have low system cost, can improve the query processing speed, and support very frequent updates and the set information publishing method. In order to verify the effectiveness of abstract indices, a simulator of 10,000 peers, over 3 million documents is made, and several metrics are proposed. The experimental results show that abstract indices work well in various P2P data systems. 相似文献
4.
5.
本体在演变的过程中常出现不一致性问题,这将导致经典的推理模式失效. 不一致容忍语义能有效地解决推理失效的问题,但各类不一致容忍语义或者需要耗费大量计算,或者丢弃了本体中有效的信息.为此,一种针对IAR-语义和ICAR-语义的变种被用以解决上述的缺陷.新定义的IPAR-语义能够避免计算整个ABox关于TBox的封闭,在减少计算量的同时尽可能地保留了本体中的信息.在IPAR-语义下实现了基于图的查询应答方法,新方法将本体和查询以不同的规则构建成图,避免了传统重写导致的查询冗余的问题.最后,通过实验对比新的查询应答方法与ICAR-语义下的查询应答方法,实验结果表明:基于图的一致性查询方法执行效率要优于ICAR-语义下的查询方法;在本体规模不断增加的情况下,新方法具有更好的稳定性. 相似文献
6.
随着物联网的发展,以RFID为代表的物联网传感器数据的存储、查询、处理等课题正成为研究的热点。结合数据仓库时空维度和列存储的思想,建立了一种列式RFID数据仓库,并根据RFID的时空特性,设计了一种支持连续聚集查询的多时空粒度数据结构和快速更新算法。它去除了传统聚集查询的部分冗余操作,适合处理大规模RFID数据仓库上的连续实时聚集查询。通过实验证明,该模型与算法在一些典型的物联网应用中取得了较高的效率,可广泛地适用于海量RFID数据仓库上的OLAP分析。 相似文献
7.
查询速度是联机分析处理中的一个关键性能指标,人们通过事先生成所有可能的聚集来提高查询速度,然而这样的完全物化是以存储空间为代价的.针对数据立方体数据分布特点和结合压缩技术,本文介绍如何最大化节省存储空间来进行完全物化,然后在此基础上对查询进行了研究,以达到最小存储空间以及较好的查询速度的目的. 相似文献
8.
9.
该文对查询系统做了深入的研究,提出了一种基于本体的智能查询系统的形式化模型,并且对系统的具体运行过程进行了详细的分析。该模型充分考虑了用户查询的语义信息,并且引入了本体环境和用户查询环境来对系统进行建模。将用来对数据库的语义信息进行描述的本体层引入到异构的、分布式的数据库系统中,在方便用户进行查询的同时增加查询结果的相关性和用户满意度。同时,系统能够及时地反映数据库信息的动态变化。 相似文献
10.
11.
12.
针对传统数据仓库系统中多维模式进化历史的挥发性问题,提出用版本元数据来记录数据仓库进化过程中的每一种多维模式状态,给出版本元数据结构,设计了跨版本透明查询系统及相应的查询算法。查询分解算法将用户基于一种模式结构提出的查询请求分解为在各个数据仓库版本上计算的子查询,集成算法将子查询结果进行必要的汇总和转换。 相似文献
13.
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果,优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.本文从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如:MapReduce)周期性调度执行的物理查询任务.本文以Apache Hive为基础实现了上述方法的原型HiveInc.实验表明,对于扩展了增量语法描述的TPC-H测试集,HiveInc相比优化前,可以获得平均2.93倍,最高5.78倍的加速;与经典优化技术IncMR,DryadInc相比,分别可以获得1.69和1.61倍的加速. 相似文献
14.
15.
由于无线传感器网络的能源有限,且在许多应用中Skyline 查询的部分结果即可满足用户需求,提出了一
种近似Skyline 查询处理算法,在满足用户查询需求的前提下最大化地节省能量.该算法仅需无线传感器网络中的部
分传感器节点回传其感知数据即可计算出Skyline 查询的一个近似结果集.由于该算法在处理查询时,每个传感器节
点只需考察自身数据信息即可决定是否回传其感知数据,而无须与其他传感器节点的感知数据进行比较,因此可以
避免大量的网内通信开销,从而节省网络能源.模拟环境下的大量实验结果表明,该算法可以根据用户的应用需求,
节能地处理传感器网络中的近似skyline 查询. 相似文献
16.
为解决外来旅客公交问询困难的问题,本文利用模式匹配、编辑距离计算、语义计算、自动问答等技术,实现了基于自然语言问答的公交移动问答系统。本文在抽象公交节点的基础上引入站点概念词,对站点关键词进行扩展、消除问询歧义,把公交线路抽象成线路节点网络模型,引入查询日志记录快表辅助问答,借助手机短消息业务实现了双向向传输。实验结果表明,该系统达到了预期效果。 相似文献
17.
基于多领域本体的智能查询系统模型 总被引:5,自引:0,他引:5
提出了一种基于多领域本体的智能查询系统的形式化模型,并且对系统及其特点进行了详细分析。该模型引入本体层来对知识库系统中的语义和信息内容进行描述,充分体现了用户查询中的语义信息,既方便用户进行查询,又增加了查询结果的相关性。同时,系统能够及时反映知识库的动态变化,简化了单一的全局本体所导致的一致性及效率问题。 相似文献
18.
19.
1.引言数据仓库作为支持OLAP应用的系统,它所面对的数据往往都具有很大的规模。如何快速地得到查询结果,一直是人们研究的一个重要方向。在已有的研究中,已经相继提出了使用实体化视图和各种有效的索引技术来提高查询响应性能。使用实体化视图是通过数据的冗余存储,对于常用的聚集数据进行预计算,使用预计算结果响应用户查询。而索引技术也主要是应用在存储层上的,如在文[4]中提到在存储层中使用bitmap索引提取相关数据的方法。而在查询处理逻辑层次上的优化技术目前研究得还比较少。在文[3]中提到了使用缓存技术,减少磁盘I/O及通信代价,提高查询效率的方法,这个 相似文献